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内 容 简 介 


Python 是 由 Guido van Rossum 于 20 世纪 80 年 代 末 和 90 年 代 初 , 在 荷兰 


家 数学 和 计算 机 科学 研究 所 


设计 出 来 的 。 它 是 一 种 面向 对 象 的 、 用 途 非 常 广 泛 的 编程 语言 ， 具 有 非常 清晰 的 语法 特点 ， 适 用 于 多 种 操 


作 系 统 。 目 前 Python 在 国际 上 非常 流行 ， 正 在 得 到 越 来 越 多 的 应 月 
Python 可 以 完成 许多 任务 ， 功 能 非常 强大 ， 


利用 Pandas 处 理 大 数据 的 过 程 ， 由 于 Pandas 库 的 使 用 能 


够 很 好 地 展现 数据 结构 , 成 为 近来 Python 项 目 中 经 常 使 用 的 热门 技术 , 并 且 R 和 Spark 对 Python 都 有 很 好 


的 调用 接口 ， 甚 至 在 内 存 使 用 方面 都 有 优化 。 
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在 写作 本 书 的 时 候 ， 国 内 大 多 数 参考 书 还 是 Python 2.7 版 本 ， 为 了 给 在 校 大 学 生 开 设 
这 门 Python 课程 ， 我 们 选择 了 Python 3.x， 毕 竟 Python 3.x 才 是 未 来 。 与 其 让 学 生 们 从 
Python 2.7 开始 学 ， 还 不 如 直接 从 Python 3.x 上 手 ， 以 掌握 更 加 完善 的 知识 。 

作者 通过 近 三 轮 的 教学 ， 对 Python 3.x 的 基础 知识 进行 了 筛选 和 总 结 ， 特 编写 此 书 ， 
希望 能 够 给 准备 使 用 Python 的 读者 提供 一 些 方便 。 

本 书 由 浅 入 深 ， 比 较 适合 那些 从 未 接触 过 计算 机 语言 的 读者 。 每 章 配 有 大 量 的 示例 代 
码 ， 和 希望 读者 在 使 用 本 书 的 时 候 ， 能 够 尽 可 能 自己 敲 代码 ， 少 用 复制 粘贴 的 方法 ， 这 样 有 
利于 读者 尽快 进入 “角色 ”， 上 毕竟 “拷贝 得 来 终 觉 浅 ”。 

本 书 的 前 3 章 是 Python 的 基础 知识 ; 第 4 章 是 利用 Pandas 库 对 数据 进行 处 理 、 分 析 
以 及 实现 数据 可 视 化 在 第 5 章 还 列 出 了 Python 对 文件 的 读 取 、 存 储 方法 ， 对 网 络 爬 虫 、 
矩阵 运算 也 做 了 简单 的 介绍 。 

作者 在 编写 本 书 的 过 程 中 ， 得 到 了 Python 工程 师 齐 伟 的 帮助 。 在 开设 这 门 课 的 时 候 ， 
齐 伟 通过 视频 的 形式 与 我 们 一 起 分 享 了 Python 开发 经 验 。 本 书 在 完稿 时 ， 得 到 了 研究 生 闫 
青 、 陈 文 华 、 马 秀 、 枢 宇 凯 和 卢 超 在 文字 校对 上 的 帮助 。 

最 后 感谢 广大 读者 选择 了 本 书 。 作 者 E-mail: yubg@nuc.edu.cn，QQ: 120487362。 欢 
迎 各 位 读者 批评 指正 。 
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第 1 章 


Python 简介 


oo 区》 Python 数据 分 析 基 础 


Python 语言 是 一 种 简单 而 又 功能 强大 的 编程 语言 。 通 过 学 习 ， 你 会 发 现 ，Python 语言 
注重 的 是 如 何 解决 问题 ， 而 不 是 编程 语言 的 语法 和 结构 。 

Python 的 官方 介绍 是 : Python 是 一 种 简单 易学 、 功 能 强大 的 编程 语言 ， 它 有 高 效率 的 
高 层 数据 结构 ， 能 简单 而 有 效 地 实现 面向 对 象 编程 。 

Python 简洁 的 语法 和 对 动态 输入 的 支持 ， 再 加 上 解释 性 语言 的 本 质 ， 使 得 它 在 大 多 数 
平台 上 的 许多 领域 中 都 是 一 个 理想 的 脚本 语言 ， 特 别 适 用 于 快速 的 应 用 程序 开发 。 不 需要 
任何 编程 基础 ， 完 全 可 以 从 零 开 始 学 习 。 
站 注意 : ”Python 语言 的 创造 者 Guido van Rossum 是 根据 英国 广播 公司 的 节目 “蟒蛇 

飞行 马戏 ”来 命名 这 个 语言 的 ，Python 的 英文 本 意 是 “ 巨 蛇 ， 大 蟒 ”. 


Python 确实 是 一 种 十 分 精彩 且 强 大 的 语言 。 它 合理 地 结合 了 高 性 能 及 使 得 编写 程序 简 
单 有 趣 的 特色 。 

Python 的 缺点 : 前 后 版 本 不 兼容 。 这 确实 是 让 新 、 老 学 习 人 员 感 到 有 点 头痛 的 事情 。 
为 前 后 版 本 不 兼容 ， 导 致 许多 人 为 选择 Python 2.x 还 是 Python 3.x 发 悉 。 本 书 推荐 
使 用 Python 3.x。 
的 确 ， 当 前 还 有 相当 多 的 程序 员 在 使 用 Python 2.7， 不 过 Python 3.x 才 是 Python 发 展 
的 未 来 ， 这 就 像 Windows 7 和 Windows 10 谁 是 未 来 一 样 。 
我 们 发 现 ，Python 3.x 中 的 新 特性 确实 很 妙 ， 很 值得 进行 深入 学 习 。 
其 实 ， 我 们 也 不 用 担心 ， 如 果 了 解 了 Python 3.x， 则 Python 2.7 的 代码 阅读 起 来 是 根本 
不 成 问题 的 。 


1.1 安装 Python 


Windows 用 户 可 以 访问 https://python.org/download， 从 网 站 中 下 载 最 新 的 版 本 ， 大 小 
约 为 27.4MB 。 与 其 他 大 多 数 语言 相 比 ，Python 的 安装 包 算是 十 分 紧凑 的 ， 其 安装 过 程 与 
其 他 Windows 软件 类 似 。 

在 本 书 即将 完成 的 时 候 ， 我 们 使 用 的 是 最 新 版 Python 3.5.1， 所 使 用 的 计算 机 系统 为 
Windows 10。 

安装 Python 很 简单 ， 双 击 python-3.5.1.exe， 勾 选 Add Python 3.5 to PATH， 再 单 击 
Install Now 即 可 ， 如 图 1-1 所 示 ， 其 下 方 已 经 显示 了 安装 路 径 。 安 装 完毕 后 ， 会 显示 安装 
成 功 界 面 ， 最 后 单 击 Close 按钮 就 可 以 使 用 了 。 

安装 完成 后 ， 在 “开始 ”菜单 中 会 显示 安装 目录 ， 如 图 1-2 所 示 。 当 我 们 要 编写 代码 
时 ， 直 接 选 择 IDLE 命令 即 可 。 


aN, 


python 3.5.1 (32-bit) Setup S x 


Install Python 3.5.1 (32-bit) 


Select Install Now to install Python with default settings, or choose 
Customize to enable or disable features. 


四 Install Now 
CAUsers\yubg\AppData\Local\Programs\Python\Python35-32 


Includes IDLE, pip and documentation 
Creates shortcuts and file associations 


一 Customize installation 


Choose location and features 


Install launcher for all users (recommended) 


for 
windows 


图 1-1 安装 界面 


P 
Pa PowerPoint 2016 
Pa Publisher 2016 


| ”python 35 


| (python 3.5… 
访 ”python 3.5 (32-bit) 


本 | python 3.5 Manu..， 最 


| 3.5 Modul- 


1-2 “开始 ”菜单 中 的 安装 目录 


如 果 是 在 Windows 7 系统 中 ， 安 装 完毕 后 ， 还 要 进行 环境 的 配置 (以 下 是 在 Windows 7 
系统 上 安装 的 Python 3.3 版 本 ，3.5 版 本 的 安装 方法 大 致 相同 )， 有 具体 方法 如 下 。 

打开 “控制 面板 ”窗口 ， 单 击 “ 和 系统” 图标， 打开“ 系统” 窗口， 在 左 侧 单 击 “高 级 
系统 设置 ”图 标 ， 将 弹出 “系统 属性 ”对 话 框 。 在 该 对 话 框 中 单 击 “ 环 境 变量 ”按钮 ， 将 
弹出 “环境 变量 ”对 话 框 ， 在 “系统 变量 ”列表 框 中 选择 Path 选项 ， 然 后 单 击 “ 编 辑 ” 按 
钮 ， 在 弹出 的 “编辑 系统 变量 ”对 话 框 中 编辑 Path 变量 。 把 “;C:\Python33” 添 加 到 变量 
值 的 末尾 ， 如 图 1-3 所 示 。 当 然 ， 前 提 是 Python 已 经 正确 地 安装 在 C 盘 的 根 目录 下 ， 即 C 
盘 中 已 经 存在 Python33 文件 夹 。 

然后 在 DOS Shell 命令 提示 符 下 输入 “python”， 如 果 看 到 如 图 1-4 所 示 的 信息 ， 就 说 
明 Python 已 经 安装 成 功 了 。 


(3. 


To Python 数据 分 析 基 础 


控制 面板 主 页 


而 设 得 理 器 


全 个 -IEEEEE3EEEEEEO 


[| 


和 


到 名 
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性 能 
视觉 沙 果 ， 趟 悍 吕 计划 


用 户 本 王立 件 
个 录 有 关 的 点 克 
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系统 启动 、 系 统 头巾 革 


jason-pc 
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1-3 ”系统 变量 的 设置 


图 


图 1-4 中 显示 的 是 在 C 得 
要 先 下 载 并 安装 Python 。 


H 


后 


如 pandas、numpy 等 。 


关于 Python 下 载 和 学 习 的 


1-4 在 命令 提示 符 下 测试 Python 安装 


下 已 安装 Python， 目 录 为 C:\Python33。 如 果 与 此 不 一 致 ， 


网 站 很 多 ， 例 如 : 


© http://freelycode.com/fcode/downloadinstall?listall=True 


@ www.freelycode.com 
@ http://pythontutor.com/ 


综 上 所 述 ， 对 于 Windows 系统 ， 要 安装 Python， 只 须 下 载 安 装 程序 ， 然 后 双 吉 


EE 
mi 


还 会 介绍 Python 的 其 他 安装 方法 ， 目 的 是 为 了 避免 安装 复杂 的 Python 数据 包 ， 


6 它 就 可 


以 了 ， 是 非常 简单 的 。 从 现在 起 ， 我 们 假设 已 经 在 计算 机 系统 里 安装 了 Python 3.5。 


44. 


打开 Python 的 IDLE， 启 动 Python 解释 器 。 
我 们 在 >>> 提 示 符 后 面 输 入 print(‘Hello World]， 然 后 按 Enter 键 ， 应 该 可 以 看 到 输出 


了 Hello World， 如 图 1-5 所 示 。 


hon 3.5.1 Shell 二 口 x 
PH 


Ele Edit shell Debug Options Window Help 
Python 3.5.1 (v3. 56. 1:37a07cee5969，Dec 6 2015，01:39:49) [MSC v.1900 32 bit (In a 
tel)] on win32 

Type “copyright”, “credits” or “license()’” for more information. 

>>> print ("Hello World’) 

Hello World 


图 1-5 IDLE 界面 


到 注 意 : ”此 处 的 >>> 为 系统 自动 显示 的 提示 符 ， 不 需要 人 为 地 输入 ， 而 程序 中 所 涉及 
的 括号 0、 引 号 “等 ， 都 需要 在 英文 半角 状态 下 输入 。 


1.2 ”Python 2 和 Python 3 的 区 别 


本 节 我 们 讲解 Python 2 和 Python 3 的 主要 区 别 。 

1. 性 能 

Python 3.0 运行 PyStone Benchmark 的 速度 比 Python 2.5 慢 30%。Guido 认为 Python 
3.0 有 极 大 的 优化 空间 ， 在 字符 串 和 整 型 操作 上 可 以 取得 很 好 的 优化 结果 。 目 前 Python 3.5 
版 本 的 性 能 已 经 优 于 版 本 2.7。 

2. 编码 

Python 3.x 源码 文件 默认 使 用 utf-8 编码 ， 这 就 使 得 以 下 代码 是 合法 的 ， 但 在 Python 
2.x 中 是 不 可 思议 的 事情 ， 对 于 中 国人 来 说 是 个 “福音 ” 


>>> 中 国 = 'china' 


>>> print (中 国 ) 


china 

汪汪 

3. 语法 

(D 去 除了 不 等 号 <>， 全 部 改 用 !=。 
(2) 关键 词 加 入 as 和 with， 还 有 True、False、None。 
(3) 整 型 除法 返回 浮 点 数 ， 要 得 到 整 型 结果 ， 须 使 用 //。 
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(4) 去 除 print 语句 ， 加 入 print0 函 数 实现 相同 的 功能 。 同 样 地 ， 还 有 exec 语句 , 已 


经 改 为 exec() 函 数 。 

例如 : 

print "The answer is", 2*2 2 

print ("The answer is", 2*2) # 3.x 

(5) 改变 了 顺序 操作 符 的 行为 ， 例 如 x<y， 当 x 和 y 类 型 不 匹配 时 抛 出 TypeError， 而 
不 是 返回 随机 的 bool 值 。 


(6) 输入 函数 有 改变 ， 删 除了 raw_input， 用 input 代替 。 
读 取 键盘 输入 的 方法 如 下 : 


guess = int(raw input('Enter an integer : ')) 大 六 | 流 

guess = int(input('Enter an integer : ')) 

(7) 删除 了 cmpO 比 较 函 数 。 

4. 数据 类 型 

(1) Python 3.x 去 除了 long 类 型 ， 现 在 只 有 一 种 整 型 一 一 int， 但 它 的 行为 就 像 2.x 版 
本 的 long。 


(2) dict 的 keysO、.items 和 .values() 方 法 返回 迭代 器 ， 而 先前 的 iterkeys0) 等 函数 都 被 
废弃 。 同 时 去 掉 的 还 有 dicthas_key0， 用 ip 蔡 代 。 

5. 异常 

(1) 所 有 异常 都 从 BaseException 继承 ， 并 删除 了 StandardError。 

(2) 去 除了 异常 类 的 序列 行为 和 .message 属性 。 

(3) raise Exception(args) 代 蔡 raise Exception, args 语法 。 

(4) 捕获 异常 的 语法 改变 ， 引 入 了 as 关键 字 来 标识 异常 实例 。 在 Python 2.5 中 : 


Sry 


raise NotImplementedError('Error' 
except NotImplementedError, error: 


print error.message 


Error 
>>> 


在 Python 3.0 中 : 


23> CEY: 
raise NotImplementedError('Error') 


except NotImplementedError as error: # 注 意 这 里 的 as 


print (str (error)) 
Error 
>>> 


6. 模块 变动 


(1) 移 除了 cPickle 模块 ， 使 用 pickle 模块 代替 。 
(2) 移 除 了 imageop 模块 。 
(3) 移 除 了 audiodev、bastion、bsddb185、exceptions、linuxaudiodev、md5、mimify、 


MimeWriter、 popen2、rexec、sets、sha、stringold、strop、sunaudiodev、timing 和 xmllib 
模块 。 

(4) 移 除 了 bsddb 模块 (单独 发 布 ， 可 以 从 http:/www-:jcea.es/programacion/pybsddb.htm. 
获取 )。 

(5) 移 除 了 new 模块 。 

(6) os.tmpnam0 和 os.tmpfileO 函 数 被 移动 到 tmpfile 模块 下 。 


7. 其 他 


(1) xrangeO 改 名 为 range0， 要 想 使 用 range() 获 得 一 个 list， 必 须 显 式 调 


>>> list (range (10) ) 
[On Le Qe dr dh Sy be hy Br 9 
>>> 


(2) bytes 对 象 不 能 hash， 也 不 支持 b.lower0、Pb.strip0 和 b.split0 方 法 ， 但 对 于 后 两 
者 ， 可 以 使 用 b.strip(b‘\n\tr \f) 和 b.split(b' ) 来 达到 相同 的 目的 。 

(3) zip0、map0 和 filter0 都 返回 迭代 器 。 

(4) file 类 被 废弃 ， 在 Python 2.5 中 : 


SL 


加 


Ye 下 
>>> 


在 Python 3.x 中 : 


> ile 

Traceback (most recent call last): 

Pile "<pyshelll20>", Jine 1, in <modauLle> 
file 

NameError: name 'file' is not defined 
>>> 
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本 章 小 结 
本 章 主要 学 习 了 Python 的 安装 和 IDLE 的 启用 ， 以 及 了 解 了 Python 2.7 和 Python 3.x 
之 间 的 差异 。 
练 习 


(1) 请 将 IDLE 的 Shell 界面 字体 调试 成 18 号 等 线 light 字体 。 
(2) 在 Shell 编辑 器 的 >>> 后 输入 help0， 查 看 本 机 安装 的 Python 版 本 信息 。 
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oo 区》 Python 数据 分 析 基 础 


我 们 先 了 解 Python 的 
1. 代码 注释 方法 

(1) 在 一 行 中 ，“#” 
(2) 如 果 要 进行 大 段 


几 个 语法 常识 。 


后 


语句 不 再 执行 ， 而 表示 被 注释 。 


的 注释 ， 


单 引 号 和 双 引 号 在 使 


【 例 2-1】 三 个 双 引 号 注释 段落 : 


ooding: Ute- 


mm 


RS 


可 以 使 
上 没有 本 质 的 差别 。 


个 


Created on Sun Mar 13 21:20:06 2016 


eauthor: 


mmnm 


Yubg 


lis=[1,2,3] 


F060r Hd Ln TLEas 
i+=1 
print (i) 


本 例 不 需要 上 机 


操作 ， 


仅 为 展示 


法 。 


2. 用 缩 进来 表示 分 层 


# 半 角 状 态 冒 号 不 能 少 ， 下 一 行 注意 缩 进 


单 引号 (”) 或 者 双 引 号 (”) 将 注释 内 容 包 


Python 不 像 C 语言 那样 用 {来 表示 语句 块 ， 而 是 通过 让 代码 缩 进 4 个 空格 来 表示 分 
层 ， 当 然 也 可 以 使 用 Tab 键 ， 但 不 要 混合 使 用 Tab 键 和 空格 来 进行 缩 进 ， 否 则 会 使 程序 在 
跨 平台 时 不 能 正常 工作 ， 官 方 推 荐 的 做 法 是 使 用 四 个 空格 。 

一 般 来 说 ， 行 尾 遇 到 “:” 就 表示 下 一 行 缩 进 的 开始 ， 如 例 2-1 中 的 “for i in lis” 行 尾 
有 冒号 ， 下 一 行 的 “ 计 =1” 就 需要 缩 进 四 个 空格 。 

3. 语句 断 行 

一 般 来 说 ，Python 中 的 一 条 语句 占 一 行 ， 在 每 条 语句 的 结尾 处 不 需要 使 用 分 号 (;)。 但 


在 Python 中 
几 行 来 写 ， 可 


也 可 以 使 


本 行 语句 的 结果 不 打印 输 


号 之 间 均 可 换行 。 例 如 


下 


分 号 ， 表 示 将 
[以 使 用 “\” 来 进行 换行 。 分 号 还 有 个 作 


出 。 一 般 地 ， 


条 简单 语句 写 在 一 行 。 但 如 果 一 条 语句 


系统 能 够 


用 ,使 


括 圆 括号 、 方 括号 和 花 括号 ): 


from pandas import DataFrame 


from pandas import Series 


df 
print (df) 


下 代码 中 的 第 三 行 较 长 ， 


若 要 对 其 


# 导 入 模块 


bh 的 函数 ， 后 E 


用 在 


而 再 讲 


较 长 ， 要 分 


行 语句 的 末尾 ， 表 示 对 
动 识别 换行 ， 如 在 一 对 括号 中 间或 三 引 
分 行 ， 则 必须 在 括号 内 进行 ( 包 


DataFrame ({'age':Series([26,85,64]),'name':Series(['Ben','Joh','Jef'])}) 


xiongxa5cr 人 


分 行 后 的 第 二 行 一 般 空 四 个 空格 ， 在 3.5 版 本 中 已 经 优化 ， 可 以 不 空 四 个 空格 ， 但 是 
在 较 低 的 3.x 版 本 中 不 空 四 个 空格 会 报错 。 


from pandas import DataFrame 


from pandas import Series 
df = DataFrame ({'age':Series([26,85,64]), # 此 语句 分 成 了 两 行 
"name sporioa( "Pen rr Io ry des 


print (df) 


4. print() 的 作用 

print0 会 在 输出 窗口 中 显示 一 些 文本 或 结果 ， 便 于 验证 和 显示 数据 。 

5. 使 用 转 义 符 

如 果 需 要 在 一 个 字符 串 中 嵌入 一 个 引号 ， 该 如 何 操 作 ? 

有 两 种 方法 :可 以 在 引号 前 加 反 斜 杠 ()， 或 者 用 不 同 的 引号 包围 这 个 引号 。 
例如 : 


>>>sl='I\'am a boy. ' # 可 以 使 用 转 义 符 \ 
>>>print (s1) 


I'am a boy. 


>>>s2="I'am a boy. " # 也 可 以 用 不 同 的 引号 包围 起 来 ， 此 处 用 双 引 号 是 为 了 区 分 单 引号 
>>>print (s2) 


I'am a boy. 
2 


转 义 符 详 见 本 章 2.2.5 小 节 的 内 容 。 
2.1 数据 类 型 


Python 总 共有 6 种 数据 类 型 ， 分 别 是 数字 型 (Numbers)、 字 符 串 型 (String)、 列 表 型 
(Lisb、 元 组 型 (Tuple)、 集 合 型 (Sets) 和 字典 型 (Dictionaries)。 

数字 型 又 可 划分 为 整数 型 inb、 浮 点 型 (floab、 布 尔 型 (booD 和 复数 型 (complex)。 

在 Python 中 有 4 种 类 型 的 数 一 一 整数 、 长 整数 、 浮 点 数 和 复数 。 

例如 ，2 是 一 个 整数 的 例子 。 

长 整数 不 过 是 大 一 些 的 整数 。 

3.23 和 52.3E-4 是 浮 点 数 的 例子 ，E 标记 表示 10 的 寡 。52.3E-4 表示 52.3x101。 

(-5+4j) 和 (2.3-4.6j) 表 示 的 是 复数 。 


LN. 


wm 四》 Python 数据 分 析 基础 


查看 数据 类 型 的 方法 是 : 
>>> type (变量 名 ) 


例如 : 


人 

>>> type (a) 

ed1835 int"> 

>>> b = True #boolean 
>>> type (b) 

<class 'bool'> 

>>> c = 4+3j] #complex 
>>> 上 ype(c) 

<class 'complex'> 

>>> d = 3.14 #float 
>>> type (qd) 

Olass "float > 

> 


2.2 ”运算 符 与 功能 命令 
2.2.1 算数 运算 符 


算数 运算 符 如 表 2-1 所 示 。 


表 2-1 算术 运算 符 
操作 符 描 述 例子 (a=10,b=20) 
+ 加 法 ， 两 个 对 象 相 加 a+b=30 
3 减法 ， 一 个 数 减 去 另 一 个 数 a-b=-10 
* 乘法 ， 两 数 相 乘 或 返回 一 个 被 重复 若干 次 的 字符 串 a*b=200 
/ 除法 ，b 除 以 a b/a=2 
% 取 模 ， 返 回 除法 的 余数 bo%a=0 
本 指 亲 ， 返 间 a 的 次 图 Bossroo000900009 ooo00: 
10 的 20 次 窜 
I 取 整 除 ， 返 回 商 的 整数 部 分 9/2=4， 而 9.0//2.0 = 4.0 


2.2.2 ”比较 运算 符 
比较 运算 符 如 表 2-2 所 示 。 


第 2 率 ython 数据 类 型 与 运算 履 ,) 
表 2-2 比较 运算 符 
运算 符 描 述 例子 (a=10,b=20) 
检查 两 个 操作 数 的 值 是 否 相等 ， 若 相等 则 条 件 变 为 真 @ 一 日 不 为 tme 
上 检查 两 个 操作 数 的 值 是 否 相等 ， 若 不 相等 则 条 件 变 为 真 GD 为 tme 
检查 左 操作 数 的 值 是 否 大 于 右 操作 数 的 值 ， 若 大 于 则 条 件 为 真 @> bj 不 为 tme 
检查 左 操作 数 的 值 是 否 小 于 右 操作 数 的 值 ， 若 小 于 则 条 件 为 真 (a <b) 为 true 
检查 左 操作 数 的 值 是 否 大 于 或 等 于 右 操作 数 的 值 ， 若 大 于 等 于 则 
> (a >= 不 为 true 
条 件 为 丰 
辐 检查 左 损 作 数 的 值 是 否 小 于 或 等 于 右 操作 数 的 值 ， 若 小 于 等 了 则 | (yw 
A 条 件 为 真 本 四 
2.2.3 ”赋值 运算 符 
赋值 运算 符 如 表 2-3 所 示 。 
表 2-3 赋值 运算 符 
运算 符 描 述 示 例 


简单 的 赋值 运算 符 ， 赋 值 从 右 侧 操作 数 到 左 侧 操作 数 
加 法 赋值 运算 符 ， 左 操作 数 和 右 操 作 数 和 的 结果 赋 给 
左 操作 数 


c=a+b 相 当 于 将 a+b 赋 值 给 c 


c+=a 相 当 于 c=c+a 


减 赋值 运算 符 ， 左 操作 数 减 去 右 操 作 数 ， 并 将 结果 赋 
给 左 操作 数 

乘法 赋值 运算 符 ， 左 操作 数 与 右 操作 数 的 乘积 赋 给 左 
操作 数 


c-=a 相 当 于 c=c-a 


Gg 相当 于 6e=@*& 


%= 


除法 赋值 运算 符 ， 左 操作 数 除 以 右 操作 数 的 结果 赋 给 
左 操作 数 

模 赋值 运算 符 ， 左 操作 数 与 右 操作 数 模 的 结果 赋 给 左 
操作 数 


c/=a 相 当 于 c=c/a 


c%=a 相当 于 c=c%a 


六 六 二 


i 


指 赋 值 运算 符 ， 左 操作 数 的 右 操作 数 指数 之 值 赋 给 左 
操作 数 

地 板 除 ， 左 操作 数 地 板 除 右 操作 数 ， 将 结果 赋 给 左 操 
作 数 


【 例 2-2】 各 类 运算 示例 : 


23> DENt(it9 


10 


> DELot(L 3=4) 


# 加 法 


# 减法 


c**=a 相当 于 c=c**a 


c/ 三 a 相当 于 c=c/l/a 
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= 

>>> Drint(3*5) 

LS 

>23 print(4.5/1.5) 
350 

> Drinttow*2y 

9 

>>> print (10%3) 

3 

>>> print (5==6) 
False 

>>> print (8.0!=8.0) 
False 

S27> Print(3<3r 3*<=3) 
False True 
>>> print (4>5, 4>=0) 
False True 

>>> printts Ln [Lr 3ra)y 
TEUES 

>>> print (True and True, 
True False 

>>> print(tTrue Or False) 
True 

>>> print (not True) 
False 

>>> divmod(5,2) 

(人 

> 572 

2 


>>>a += b 
>>>print (a) 
人 


True and False) 


# 乘法 

# 除法 

# 乘 方 

# 求 余数 
# 相等 

# 不 相等 
# < 小 于 ; <= 小 于 等 于 
于 
# 5 是 1ist 


[1,3,51 的 一 个 元 素 


# and， 两 者 都 为 真 才 是 真 


说 明 : 在 Python 3.5 之 前 的 版 本 中 ， 当 两 个 整数 相 除 时 ，3 


中 舍 五 入 ); 当 除 数 和 被 除数 之 一 或 两 者 都 是 浮 点 数 时 ， 


# or，“ 或 ”运算 ， 其 中 之 一 为 真 即 为 真 
# not，“ 非 ”运算 ， 取 反 
# 表示 5 除 以 2， 返回 了 商 和 余数 
其 结果 取 商 的 整数 部 分 (不 是 


其 结果 才 是 浮 点 数 。 如 计算 5/2 


2.5。 若 是 3.5 之 前 的 版 本 ， 也 可 以 
>>> from future _ import division 
So 


.TAN 


时 ， 得 到 的 结果 不 是 2.5， 而 是 2。 但 在 Python 3.5 版 本 中 
除法 模块 ”future_ 中 的 division， 如 下 所 示 : 


已 经 做 了 优化 ， 其 结果 显示 为 


wx won 人 


> roundll.23456772) 
1.23 
六 这 六 


但 是 也 有 例外 : 


S33> round (2.23572) 
1 
2 


结果 为 什么 不 是 2.24? 因为 这 是 由 浮 点 数 引 起 的 精确 度 问题 ， 后 续 章 节 将 详细 介绍 
decimal 模块 对 此 类 问题 的 处 理 方法 (from decimal import Decimal): 


>>> from decimal import Decimal 

>>> from decimal import localcontext 
>>> a = Decimal('l.3") 

>>> b = Decimal ('1.7') 

>>> print(a / b) 
0.7647058823529411764705882353 


>>> with localcontext() as ctx: 
Eee 3 
print(a / b) 


O765 

>>> 

思考 : 为 什么 >>>print( love i-nuc.com ，* 5) 可 以 正常 执行 ， 而 >>>print(I love i- 
nuc.com : + 9) 却 报错 ? 

运算 类 型 不 一 致 。 在 Python 中 不 能 把 两 个 完全 不 同 的 东西 加 在 一 起 ， 比 如 说 数字 和 文 
本 。 正 是 这 个 原因 ，print('I love i-nuc.com ”+ 3) 才 会 报错 。 这 就 像 在 说 “我 的 体重 67 公斤 
加 上 我 的 身高 170cm 是 多 少 ”一 样 没有 多 大 意义 ! 不 过 ， 文 本 乘 以 一 个 整数 来 翻 倍 就 具有 
一 定 的 意义 了 ，print('Ilove i-nuc.com " * 5) 意 思 就 是 将 “I love i-nuc.com "这 个 字符 串 接 连 输 
出 5 次 。 


2.2.4 ”常量 与 变量 


常量 有 数值 、 字 符 、 逻 辑 真 假 ， 如 12、yy、“12”、true、false。 
变量 是 可 以 给 它 赋值 的 量 ， 如 a=3。 
变量 只 能 由 数字 、 字 母 和 下 划 线 构成 ， 但 不 能 以 数字 开头 ， 而 且 变 量 区 分 大 小 写 ; 以 


/15N. 
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下 划 线 开头 的 变量 有 特殊 含义 ;变量 名 不 能 含有 空格 和 标点 符号 ， 如 括号 、 引 号 、 带 号 、 


斜 线 


2.2 


(2) 括 起 来 。 


、 反 斜 线 、 冒 号 、 句 号 和 问号 ;在 Python 3.x 中 ， 变 量 也 可 以 是 中 文 。 例 如 : 


>>> 中 = Love You” 
汪汪 生生 hah) 
>>> List = [5,6,7] 
2 

CE 273] 

>>> DIS 

[3 2 7 


.5 字符 串 


字符 串 是 字符 的 序列 。 字 符 串 基本 上 就 是 一 组 单词 。 字 符 串 需 用 单 引号 (”) 或 者 双 引 号 


(1) 使 用 单 引号 C): 可 以 用 单 引号 指示 字符 串 ， 就 如 同 ‘Quote me on this* 这 样 。 所 有 


的 空 


your 


号 中 


， 即 空格 和 制 表 符 都 照 原样 保留 。 

(2) 使 用 双 引 号 C): 双 引 号 与 单 引号 中 的 字符 串 在 使 用 上 完全 相同 ， 例 如 “What's 
name?”。 
(3) 使 用 三 引号 C” 或 *””):; 利用 三 引号 ， 可 以 指示 一 个 多 行 的 字符 串 。 可 以 在 三 引 
地 使 用 单 引号 和 双 引 号 。 

(4) 转 义 符 : 假设 想 要 在 一 个 字符 串 中 包含 一 个 单 引号 ()， 例 如 字符 串 What's your 


name?， 就 不 能 用 “What’s your name?’ 来 表示 ， 因 为 这 里 有 三 个 单 引号 ，Python 不 知 从 何 处 


开始 
里 的 


your 


义 符 


， 何 处 结束 。 这 时 ， 可 以 通过 转 义 符 来 完成 这 个 任务 ， 用 \* 来 表示 单 引 号 注意 这 
反 斜 本。 可 以 把 字符 串 表 示 为 "What\'s your name?”。 义 如 : 
>>> s = 'Yes,he doesnN't' 


>>> print(s, type(s), len(s)) #1len() 函数 用 于 查看 s 的 长 度 
Yes,he doesn't <class 'str'> 14 


还 可 以 用 另 一 个 表示 方法 ， 即 用 双 引 号 ， 以 便 与 字符 串 内 的 单 引号 区 分 开 ， 即 “What's 
name?”。 
类 似 地 ， 要 在 双 引 号 字符 串 中 使 用 双 引 号 时 ， 可 以 借助 于 转 义 符 。 另 外 ， 也 可 以 用 转 
“N” 来 指示 反 斜 枉 “\”。 
值得 注意 的 是 ， 在 一 个 字符 串 中 ， 行 末 单 独 一 个 反 斜 杠 表示 字符 串 在 下 一 行 继续 ， 而 
开始 一 个 新 的 行 。 例 如 : 
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"This is the first sentence,\ 


This teathe seoond sentence, 


等 价 于 ， 


"This is the first sentence. 


This is the second sentence.™" 


转 义 字符 的 种 类 如 表 2-4 所 示 。 


表 2-4 转 义 字符 及 其 描述 


转 义 字符 描 述 
\( 在 行 尾 时 ) 续 行 符 
\ 反 斜 杠 符号 
闪 单 引号 
w 双 引 号 
\a 响 铃 
\b 退 格 (BackSpace) 
\e 转 义 
\000 党 
n 换行 
Ww 纵向 制 表 符 
My 横向 制 表 符 
Yr 回 车 
¥f 换 页 
\oyy 八进制 数 yy 代表 的 字符 ， 例 如 ，\o12 代表 换行 
yy 十 进 制 数 yy 代表 的 字符 ， 例 如 ，\x0a 代表 换行 
\other 其 他 的 字符 以 普通 格式 输出 
(5) 自然 字符 串 : 如 果 想 要 指示 某 些 不 需要 如 转 义 符 那样 特别 处 理 的 字符 串 ， 则 需要 
指定 一 个 自然 字符 串 。 自 然 字 符 串通 过 在 字符 串 前 添加 前 级 rf 或 RR 来 指定 。 
例如 a=r“Newlines are indicated by n”*"， 读 者 可 自行 测试 。 
又 如 : 
>>> print ('C:\some\name') # \n 表示 成 了 换行 符 
C:\some 
ame 
>>> print(r'C:\some\name') 
C:\some\name 
>>> 
(6) Unicode 字符 串 : Unicode 是 书写 国际 文本 的 标准 方法 。 如 果 想 其 他 语言 ， 如 


A. 
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北 印度 语 或 阿拉 伯 语 写 文本 ， 那 么 就 需要 有 一 个 支持 Unicode 的 编辑 器 。 类 似 地 ，Python 


允许 处 理 Unicode 文本 


string.”。 


看 起 来 像 是 一 件 坏 引 
个 缺点 。 


(7) 字符 囊 是 不 可 变 的 ， 这 意味 着 一 旦 创造 了 一 个 字符 
有 ， 但 实际 上 它 不 是 。 我 们 将 会 在 后 面 的 程序 中 看 到 为 什么 说 它 不 是 一 


字符 串 可 以 通过 “+” 运 算 符 串 连 在 一 起 ， 或 者 用 “*” 运 算 符 重复 。 例 如 : 


> SEE SS 


string mymymy 
>>> 


2.2.6 ”字符 串 索 引 与 切片 


对 


定义 字符 串 变 量 并 赋值 的 例子 如 下 


>>> str = "Hello My friend" 


字符 串 是 一 个 整体 。 如 果 想 直接 修改 字符 串 ， 是 不 可 能 做 到 的 ， 但 我 们 能 够 读 上 


i 


bh 的 某 一 部 分 。 
1. 字符 串 的 索引 


只 需要 在 字符 串 前 加 上 前 级 u 或 U。 例 如 ，u'This is a Unicode 


， 就 不 能 再 改变 它 。 虽 然 这 


给 出 一 个 字符 串 ， 可 输出 其 任意 一 


种 是 从 左 往 右 ， 从 0 开始 依次 增加 ; 第 


>>> word = 'Python' 

>>> print (word[0]) 

了 

>>> print (word[-1], word[-6]) 
Tp 

> 


2. 字符 串 的 切片 


切片 (也 叫 分 片 ) 就 是 从 给 定 的 字符 


个 字符 。Python 中 的 字符 串 有 两 种 索引 方式 : 


二 种 是 从 右 往 左 ， 从 -1 开始 依次 减少 。 例 如 : 


是 中 分 离 出 部 分 内 容 。 


(1) Python 中 用 冒号 分 隔 两 个 索 弛 


， 形 式 为 “变量 [ 头 下 标 : 尾 下 标 ]”， 截 取 的 范 


左 闭 右 开 ， 即 不 包含 尾 下 标的 字符 ， 并 且 两 个 索引 都 可 以 省 略 。 例 如 : 


.TaN， 


> Str = VNHello My triend® 
>>> print (str[1:4]) 
SE 


第 2 


>>> print (str[l:=Tt]) 
Hello My 
TS 
My friend 

>>> print(astr[ls1) 
Hello My friend 
人 


六 myton 效 可 类 也 5 二 站 全 


(2) 切片 的 扩展 形式 为 “str[IJK]”， 从 工 到 本 1， 每 隔 K 个 元 素 索 引 一 次 ， 如 果 K 


为 负数 ， 就 是 按 从 右 往 左 索引 。 例 如 : 


>>> str = "Hello My friend" 
>» print(otrt2 Ta2]) 

loM 

>2> print(strl2: Ly 

llo M 

> 


(3) 字符 串 包 含 判断 操作 符 为 让，not in。 例 如 : 


>>> str = "Hello My friend" 

2 "He Lh gtr 

True 

>>> she met in str 

True 

Be ee) # 字 符 串 模块 提供 的 查找 方法 
4 

>>> 


(4) ord 函数 将 字符 转化 为 对 应 的 ASCII 码 值 ， 而 chr 函数 将 数字 转化 为 字符 。 例 如 : 


>>> print (ord('a')) 
2 

22>> print(chnr(9)) 
a 

>>> 


(5) 处 理 字符 串 的 内 置 函数 : 


len(str) # 串 长 度 

max('abcxyz') # 和 寻找 字 符 串 中 最 大 的 字符 
min('abcxyz') # 寻 找 字符 串 中 最 小 的 字符 

(6) string 的 转换 : 

int (str) # 变 成 整 型 ， 如 int ("12") 的 结果 为 12， 是 数 


值 型 


.Te 
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string 模块 还 提供 了 很 多 方法 ， 例 如 : 


S.find(substring，[start [vend]]) # 可 指 范围 查找 子囊， 返回 索引 值 ， 和 否则 返回 -1 
S.rfind(substring, [start [vend]]) # 反 向 查找 

S.index(supstring, [start [vend]]) # 同 find， 只 是 找 不 到 会 产生 ValueError 异常 
S.rindex (substring, [start [,end]])# 同 上 反 向 查找 

S.count (substring, [start [,end]]) # 返 回 找到 子 串 的 个 数 

S.capitalize() # 首 字母 大 写 

S.lower() # 转 小 写 

S.uppezr() # 转 大 写 

S.swapcase() # 大 小 写 互 换 

S.split()  # 将 string 转 1ist， 默 认 以 空格 切 分 ， 也 可 以 指定 字符 切 分 


2.2.7 输入 和 输出 


1. print 


(在 Python 2.x 中 ，print 格式 


过 


print 是 一 个 常用 函数 ， 其 功能 就 是 输出 括号 中 的 字符 上 
写成 print ‘Hello World!’)。 
print 可 以 有 多 个 和 输出， 以 和 逗号 分 隔 。 例 如 : 


>>> a=10 


>>> print (a,type (a)) 
10 <xelass” "nt 
>>> 

若 要 将 多 个 结果 打印 在 一 行 ， 并 以 逗号 分 隔 ， 可 以 在 print 中 添加 end=“,，， 例 如 
将 会 用 到 。 


print(test_list[i], end=“,”)， 后 


2. input 

input 函数 将 用 户 输入 的 内 容 作为 字符 串 的 形式 返 
“数字 ”的 类 型 也 是 字符 串 型 。 

【 例 2-3】input 输入 : 


>>> a = input("Input: ") 


回 


， 就 算 输入 的 是 数字 ， 但 返 


回 
否 


Input: 12 

3 

1121 

>>> type (a) 

<Clasg "Str 

>>> b=input (' 请 您 输入 :') 
请 您 输入 :abc 


./20N. 


2.2; 


原 术 


S37 

a 

>>> type (b) 

olasg TS 七 zz 

>>> c = int (input (" 请 您 输入 数字 : ") ) 
请 您 输入 数字 : 231 


>>> 七 YPe (c) 


olasa "nt > 
>>> qd=int (input (' 请 输入 字符 : ') ) 
请 输入 字符 : aca 


Traceback (most recent call last) : 


File "<pyshell#10>", line 1, in <module> 


d=int (input (' 请 输入 字符 : ') ) 
ValueError: 
>>> 


如 果 要 想 获取 数字 ， 可 以 使 


int (input ("输入 : ")) 


但 需要 注意 ， 不 可 以 输入 字符 型 ， 如 输入 隆 


8 原始 字符 串 


先 看 个 例子 : 


>>> d="c:\news” 
>>> qd 
'C:\news' 


>>> print(d) 


invalid literal for int() with base 10: 


“ionyExa5cr 人 


aca 


int 函数 将 接收 进来 的 “数字 ”字符 转化 为 数字 。 例 如 : 


则 会 报错 ， 如 例 2-3 最 后 输入 的 acd。 


出 
品 


执行 print(d) 语 句 时 ， 出 现 的 不 是 cvnews， 而 是 


为 了 避免 在 print 的 时 候 出 现 上 述 的 歧义 现象 ， 可 


的 路 径 较 长 ， 为 了 方便 起 见 ， 可 以 在 引号 的 前 
上 面 的 例子 可 改写 如 下 : 


下 
>>> d=r"c:\news" 
>>> d 


中 
Do 


‘Cc:\\news' 
>>> print (d) 


c:\news 


巴 其 中 的 \n 看 成 了 换行 符 。 
以 引入 转 义 符 ， 即 d=“c:\news”， 但 
而 加 上 r， 表 示 r 后 面 引号 里 的 东西 按 


.2 
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2.2.9 range 


Python 中 的 内 置 函数 range(n) 表 示 一 个 从 0 到 n-1 的 长 度 为 n 的 序列 。 
当然 ， 可 以 自 定义 我 们 需要 的 起 始点 和 结束 点 ， 例 如 : 


>>> range (1,5) # 代 表 从 1 到 5( 不 包含 5)， 即 1、2、3、4 
>>> 


range(n) 函 数 还 可 以 定义 步 长 。 

下 面 我 们 定义 一 个 从 1 开始 到 30 结束 ， 步 长 为 3 的 列表 : 

>>> range (1,30,3) 

range (1, 30, 3) 

>>> list (range (1，30，3)) # 这 里 用 1ist 列表 把 值 显示 出 来 ，1ist 在 后 面 介绍 
[0 1 10 2 020 

>>> 

默认 情况 下 ，range0 的 起 始 值 是 0。 

在 numpy 模块 中 ，arangeO 类 似 于 range 函数 ， 调 用 时 须 导 入 该 模块 : 


import numpy 


numpy.arange (n) 


2.2.10 ”元 组 、 列 表 、 字 典 、 集 合 


1. tuple 


元 组 (tuple) 类 似 于 向 量 ， 元 组 的 元 素 不 能 修改 。 元 组 写 在 小 括号 里 ， 元 素 之 间 用 逗号 


隔 开 ， 和 向 量 的 写法 一 致 。 元 组 中 的 元 素 类 型 也 可 以 不 相同 ， 示 例如 下 : 


>>> a = (1991, 2014, 'physics', 'math') 

>>> print (a, type(a), len (a)) 

(1991, 2014, “physics 'math") <class 'tuple'> 4 
>>> 


元 组 与 字符 串 类 似 ， 可 以 被 索引 且 下 标 索 引 从 0 开始 ， 也 可 以 进行 截取 切片 (其 实 ， 可 


以 把 字符 串 看 作 一 种 特殊 的 元 组 )。 例 如 : 


(22N. 


SF tu = (1, 2, 3, 34, 5, 6 
>>> print (tup[0], tup[l1:5]1) 
0 4 SS) 
>>> tup[0] = 11 # 修改 元 组 元 素 的 操作 是 非法 的 
Traceback (most recent call last): 
File "<pyshell#21>", line 1, in <module> 
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tup[0] = 11 


TypeError: '‘'tuple' object does not support item assignment 
>>> 


虽然 tuple 的 元 素 不 可 改变 ， 但 它 可 以 包含 可 变 的 对 象 ， 比 如 list 列表 。 对 于 构造 包含 
0 个 或 1 个 元 素 的 tuple 是 个 特殊 的 问题 ， 所 以 有 一 些 额 外 的 语法 规则 : 
>>> ET ET 半空 元 组 


>>> tupl 


(0) 
>>> tup2 


(20,) # 创 建 只 有 一 个 元 素 的 元 组 ， 该 元 素 后 面 的 逗号 不 可 忽略 
>>> tup2 
(20,) 

>>> tup3 


(20) 
>>> tup3 

20 

>>> 


还 注意 : ”元 组 (2) 其 实 就 是 数字 2， 仍 然 是 整 型 ， 但 (2,) 就 是 元 组 .元 组 是 不 可 添加 和 
删除 的 。 另 外 ， 元 组 也 支持 用 “+” 操 作 符 。 例 如 : 
es 0 
>>> print (tupl+tup2) 


(1,: 2, 3, 4, 5, 6€) 
>>3 


元 组 由 不 同 的 元 素 组 成 ， 每 个 元 素 可 以 存储 不 同类 型 的 数据 ， 而 元 组 中 的 元 素 则 代表 
不 同 的 数据 项 。 元 组 的 创建 可 以 不 定 长 ， 但 创建 后 和 字符 串 一 样 ， 都 是 不 可 修改 的 。 
例如 : 


>>> aser=(172713) 
a 


Traceback (most recent call last): 
File "<pyshell5>", line 1, in <module> 
user[0]=2 
TypeError: "tuple' object does not support item assignment 


> 

元 组 的 添加 : 

be he 

>>> user = (user, '05') # 注 意 结果 与 两 元 组 用 “+” 操 作 符 结 果 的 比较 
>>> user 


ROR 02, POS oa) dOBey 


:fea 
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>>> 
元 组 的 访问 : 
SS er = OO O23 Oy 
>>>user[0] 
+01， 
>>>user [21] 
1031 
>>> 
元 组 包含 以 下 内 置 函数 。 
@ len(tuple): 计算 元 组 元 素 的 个 数 。 
@ max(tuple):; 返回 元 组 中 元 素 的 最 大 值 。 
@ min(tuple): 返回 元 组 中 元 素 的 最 小 值 。 


tuple(list):; 将 列表 转换 为 元 组 (list 在 后 面 介 绍 )。 


还 注意 : ”cmp0 函 数 在 Python 3.5 中 已 经 被 删除 。 


类 型 可 以 不 相同 ， 例 如 a = [TT*,“you”,“he”,5]。 
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二 元 元 组 (二 维 ) 的 访问 : 


>>>userl = (1,2,3) 
>>>user2 = (4,5,6) 
>>>user = (userl,user2) 


>>>print (user[1] [2]) 


元 组 的 解 包 : 


>>> user = (1,2,3) 
>>> a,b,c = user # 变 量 个 数 要 等 于 元 组 的 长 度 


> 


囊 


>>> Pb 


2 


列表 (lisD) 用 方 括号 [] 标 识 ， 其 元 素 写 在 方 括号 之 间 ， 并 


list 


列表 的 索引 同 字符 串 和 元 组 一 样 ， 如 图 2-1 所 示 。 


逗号 分 隔 开 。 列 表 j 


元 素 的 


wx WAaAE 人 


list i | 
ee 
1 Ph We Pe 
index 


es Py 人 


2-1 list 索引 图 


列表 array = [1, 2, 5, 3, 6, 8, 和 对 应 的 元 素 1=array[0]= array[-7]， 以 此 类 推 。 

从 0 开始 ，0 表示 第 一 个 元 素 索 引 ，-1 表示 最 后 一 个 元 素 索引 ，-len(array) 表 示 第 一 个 
元 素 的 索引 ，len(array)-1l 表示 最 后 一 个 元 素 的 索引 。 

len(list) 表 示 取 list 的 元 素数 量 ， 也 即 list 的 长 度 。 

创建 连续 的 list: 

>>> list (range (1,5)) 

tly 2 3 4] 

>>> list (range (1，10，2)) # 步 长 为 2， 从 1 开始 ， 每 隔 2 取 一 个 数 

| 

> 

和 字符 串 一 样 ， 列 表 同 样 可 以 被 索引 和 切片 ， 列 表 被 切片 后 ， 返 回 一 个 包含 所 需 元 素 
的 新 列表 。 例 如 : 

>>> a wm [IVM You GRASS 

>>> a[1l:3] 

['you’', "he"] 

> atl 


‘you' 
>>> a[1]="she' 
>>> a 
[LT Vahe, me 8] 
>>> 


从 上 面 的 语句 可 以 看 出 ， 列 表 是 可 以 改变 的 ，a[1] 由 原来 的 ‘you* 变 成 了 ‘she”。 
列表 还 支持 串联 操作 ， 使 用 “+” 操 作 符 : 


| 


| 
lly 27 3 dr Dr 7 Jo Bd 
>>> 


使 用 a[n:n]=[q] 可 以 在 列表 a 中 的 n 位置 插 入 一 个 值 q。 例 如 : 


3 a 
>>> a[2:2]=[3] ”# 在 列表 中 的 某 位 置 插入 一 个 值 


.25\. 
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>>> a 

站 

>>> len(a) # 测 试 列表 的 长 度 ( 含 元 素 的 个 数 ) 
5 

区 


使 用 list(stD 可 以 将 字符 串 转 化 为 列表 。 例 如 : 
>>> Word='he1l1lo' 

>>> 1ist (word) ”# 将 字符 串 转化 为 列表 
| 

>>> 


下 面 介绍 list 的 有 关 方 法 。 

(1) list 的 元 素 追 加 。 

@ L.append(var): 追加 元 素 ， 追 加 的 元 素 可 以 是 一 个 list、 数 、 字 符 串 等 。 
例如 : 

| 

>>> q=[8,9] 

>>> w.append (q) “ # 不 能 写成 w=w.appenda(q) 

>>> w 


[的 
ee 


于 注意 ; ”append 方法 不 能 返回 值 ， 所 以 像 w=w.append(q) 这 样 写 是 错误 的 。 


加 L.extend(lisD): 合并 两 个 列表 ， 即 把 list 追加 到 工 列表 中 。 不 能 追加 单个 元 素 。 


例如 : 

>>> w=[1,2,'L'] 
>>> q=[8,9] 

>>> w.extend (q) 
>>> vw 

[hp STR S3 
>>> 


和 注意 : ”append 和 extend 的 区 别 是 : append 是 对 列表 添加 元 素 ，extent 是 合并 两 个 


列表 。 
加 L.insert(index,var): 在 index 位 置 插入 var 元 素 。 
例如 : 
>>>a = [In, you", rhe",5] 


126， 


wx wan 人 


>>>a.insert (1,'love') 
>>>a 
[TP LOvory UYULE hear sl 


>>> 

(2) 从 list 删除 元 素 。 

使 用 L.pop(Cindex) 从 list 删除 元 素 ， 返 回 被 删除 的 index 位 置 元 素 ， 只 能 删 一 个 元 素 ， 
从 list 中 删除 这 个 元 素 。 默 认 删 除 最 后 一 个 元 素 。 例 如 : 

Sa = "i moa ne Sl 

>>>a.pop (2) 


pe 


> 


加 


['I', 'you', 5] 
>>>a.pop () 

5 

>>>a 

ELEY To 
Sy 


使 用 del LIindex] 删 除 指定 索引 的 元 素 。 例 如 : 


>>>a = ["I","you", "he",5] 
>z>delial3l 

>>>a 
['I', ryou', 'he'] 


>>> 

使 用 delL[m:n] 删 除 指定 索引 范围 的 元 素 。 例 如 : 
村 

>>> del al[l:3] # 删 除 1ist 中 索引 为 1、2 的 值 
> 

El A 3) 

>>> 


使 用 L.remove(van) 删 除 第 一 次 出 现 的 var 元 素 。 例 如 : 


>>>1i = [1,2,3,4,5,4,6] 
>>>1i.remove (4) 

> > 

| 0 | 

>>> 


另外 ， 还 可 以 使 用 切片 的 方法 来 删除 。 例 如 ;: 


>>>1i = [1,2,3,4,5,6] 
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S314 = iL 
>>>1i 

CL 
>>> 


(3) list 操作 符 (:、+、 交 。 例 如 : 


A a Le 
S32 HIlls:] # 片 段 操 作 符 ， 用 于 子 1ist 的 提取 
['you', 'he', 5] 

> [1.21+L3.41 # 同 extend() 


| | 
>>> [2]*#4 
| | 
>>> 


(4) list 的 索引 冒号 用 法 。 
冒号 前 后 表示 索引 切片 的 起 止 位 置 。 例 如 : 


4 
>>> array[0:] # 列 出 索引 0 以 后 的 
人 

>>> array[1:] # 列 出 索引 1 以 后 的 
[STORE 4 
>>> array[:-1] # 列 出 索引 -1 之 前 的 
[ES 6 

>>> array[3:-3] # 列 出 索引 3 到 索引 -3 之 间 的 


[3] 

>>> 

两 个 冒号 [::] 表 示 取 全 部 索引 。 例 如 : 
Sy>> array IT 2, 5, 3 €; 87 4] 


>>> array[::2] }# 表 示 步 长 为 2 取 元 素 ， 即 隔 一 个 元 素 取 一 个 元 素 
| 

>>> array[2::] 

[5, 3, 6, 8, 4] 

>>> array[::3] 

[1, 3, 4] 

>>> array[::4] 

[1 6] 


双 骨 号 [::] 还 可 以 形成 reverse 函数 的 效果 。 例 如 : 


> array re LL 20 On 3 87 8 4] 
>>> array[l::-1] 


.28\. 


wa AAS 


La 0 Dt 

>>> array[::-2] 

| 

>>> 

(5) list 排序 。 

对 列表 进行 排序 可 以 使 用 sort0 和 sortedO 函 数 。 

@ ”sort0: 此 函数 对 列表 排序 时 ， 会 改变 列表 本 身 ， 从 而 让 其 中 的 元 素 按 一 定 的 顺序 
排列 。 例 如 : 


| 


>>>°ar sort() 
337 a 
[lr Wr Sr Wp de B91 
>>> sort (a) 
Traceback (most recent call last): 
File "<pyshell#3>", line 1, in <module> 
sort (a) 
NameError: name 'sort' is not defined 


>>> help (a 


Sort (ey 
L.sort (key=None, reverse=False) -> None -- stable sort *IN PLACE* 
六 


从 help 可 知 ，sort0 默 认 按 从 小 到 大 排序 ， 可 以 添加 参数 reverse=True， 变 成 从 大 到 小 
排列 。 例 如 : 


| 
>>> e.sort(reverse=True) 
>>> e 

ES 4 337327 

>>> 


还 注意 :， sortO 函 数 使 用 的 是 “.” 方 法 ， 即 a.sort()， 使 用 sort(a) 就 会 报错 。sortO 函 数 
会 改变 原来 的 列表 ， 且 函数 返回 值 为 空 ， 即 None。 因 此 ， 如 果 需 要 一 个 已 
排 好 序 的 列表 副本 ， 同 时 又 要 保留 原 有 列表 不 被 改变 ， 就 不 能 直接 简单 地 使 
用 sort0 浮 数 (为 了 实现 上 述 功 能 ， 可 以 使 用 sorted(a) 方 法 )。 例 如 : 


> 
>>> @ = L.sort() # 返 回 空 值 None 


>>> print(e) 


None 
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>>> 工 
[ly 2 3, 4 Sr 77 29] 
>>> 


四 sorted0: 此 函数 对 列表 进行 排序 时 ， 直 接 获 取 列 表 排 序 的 一 个 副本 。sorted0 函 数 
可 以 用 于 任何 可 迭代 的 对 象 。 例 如 : 
SB 32 ro 
>>> sorted(a) # 对 a 排序 后 产生 一 个 新 的 列表 

[1, 2, 3, 4, 5, 8, 9] 
>>> a 

L327 Sr dy Med ll 
>>> 


于 注意 ; ”@ asort0 和 sorted(a) 有 区 别 : sorted(a) 产 生 的 是 一 个 新 列表 ， 不 改变 原 列表 
ai 而 a.sort() 是 对 列表 a 直接 排序 ， 破 坏 了 原 列表 。@ sorted0 既 产 生 新 的 排 
序列 表 又 保持 原 列表 不 被 改变 ， 这 个 功能 也 可 以 通过 拷贝 副本 的 方法 来 实 
现 : 先 获取 列表 a 的 一 个 副本 b， 然 后 再 对 b 进行 b.sort() 排 序 。 

为 了 理解 得 更 深刻 ， 我 们 将 对 a 和 了 b 的 存储 地 址 进行 查验 ， 代 码 如 下 : 


| 

>>> idta) # 查 看 a 的 存储 地 址 

55494776 

5 Dai # 拷 贝 一 个 副本 b 

S25 

3 Zr S490 B71 

>>> id(b) # 查 验 b 的 存储 地 址 

55486264 # 发 现 b 和 a 地 址 不 一 致 ， 说 明 复 制 了 一 份 
>>> c=a # 再 复制 一 个 副本 c， 比 较 c 和 a 的 存储 地 址 
>>> c 

人 

>>> id(c) # 查 验 c 的 存储 地 址 

55494776 # 发 现 c 的 地 址 跟 a 一 致 ， 说 明 c 是 a 的 一 个 标签 ， 不 是 真 复制 
>>> b.sort() # 对 b 进行 排序 

I 

ER 2 22 405997 

> a #b 排序 后 对 a 没有 影响 

| :人 用 节 | 

23> :sort() # 对 c 进行 排序 

站 

(S00 

Sa #c 排序 后 对 a 有 影响 


.so 


“ionxExa5cr 人 


UL 37 dr Sr 8 9] 
>>> 


从 上 面 代码 显示 的 存储 地 址 知道 ，c 仅仅 是 a 的 一 个 标签 ， 并 不 是 真正 意义 上 的 复 
制 ， 不 论 是 a 改变 ,还 是 ec 改变 ， 其 实 改变 的 都 是 同一 个 地 址 里 的 内 容 ， 所 以 互相 有 影 
响 。 只 有 b 才 是 真正 意义 上 的 拷贝 ， 后 面 我 们 还 会 遇 到 “ 深 拷贝 ”。 再 如 : 


>>> x=[4,6,2,1,7,9,4] 
>>> y=x[:] 


>>> y.sort() 
> DELNt (x) 
[4 Gr Zr Ty Ts % A 
>>> print (y) 
[ly 2 dr dy Br eg] 


说 明 : 调用 x[:] 得 到 的 是 包含 了 x 所 有 元 素 的 切片 ， 这 是 一 种 很 有 效率 的 复制 整个 
列表 的 方法 。 通 过 y=x 简单 地 将 x 赋值 给 y， 仅 仅 是 给 y“ 贴 ”了 一 个 指向 
Xx 的 标签 ， 最 终 x 和 yy 都 指向 了 同一 个 列表 。 
@ reverse0: 此 函数 用 来 进行 倒序 排列 。 例 如 : 


[ESAEZAEAEAESJ 
>>> e.reversel() 


>>> reversed([1,2, 'L']) # 这 样 返回 的 是 一 个 迭代 器 ， 可 以 用 1ist 转化 为 列表 
<list reverseiterator object at 0x02C921B0> 
>>> Tist (reveraed( [1727 1])) 


['L', 2, 1] 
>>> 

或 者 : 

>>> w=[lr27 "Lb"] 
| 
| 
>>> 


对 字符 串 也 可 以 同样 反 转 。 
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他 方法 。 
@ LL.count(var): 返 


(0) 


回 


var 元 素 在 列表 中 出 现 


的 个 数 。 


可 


@ Lindex(van): 返 
列表 对 象 常 


第 一 个 var 元 素 的 位 置 
的 方法 汇总 如 表 2-5 所 示 。 


H 
| 


， 无 则 抛 出 异常 。 


表 2-5 list 对 象 常用 的 方法 


list.append(x) 把 一 个 元 素 添加 到 列表 的 结尾 ， 相 当 于 allen(a):] = [x] 
list.extend(L) 将 一 个 给 定 列表 中 的 所 有 元 素 都 添加 到 另 一 个 列表 中 ， 相 当 于 allen(a):]=L 
i 在 指定 的 索引 位 置 i 插入 一 个 元 素 x。 如 a.insert(0, x) 会 插入 到 整个 列表 之 前 ,而 
a.insert(len(a), x) 相 当 于 a.append(x) 
list.remove(x) | 删除 列表 中 第 一 次 出 现 的 值 为 x 的 元 素 。 如 果 没 有 这 样 的 元 素 ， 就 会 返回 一 个 错误 
二 top 全 从 列表 的 指定 位 置 删除 元 素 ， 并 将 其 返回 。 如 果 没 有 指定 索引 ，a.pop0 返 回 最 后 一 
个 元 素 ， 该 元 素 随即 从 列表 中 被 删除 
listindex(x) 返回 列表 中 第 一 个 值 为 x 的 索引 。 如 果 没 有 匹配 的 元 素 ， 就 会 返回 一 个 错误 
list.count(x) 返回 x 在 列表 中 出 现 的 次 数 (可 以 用 于 做 列表 中 的 查 重 ) 
listsortO 对 列表 中 的 元 素 就 地 进行 排序 (改变 了 原 列表 ) 
listreverseO 就 地 倒 排列 表 中 的 元 素 ( 改 变 了 原 列 表 ) 
3. dict 
先 来 看 列表 存储 通信 录 。 
【 例 2-4】 通 信 录 的 存储 : 
>>> name=["Ben", "Jone","Jhon","Jerry", "Anny", "Ivy", "Jan", "Wong"] 


>>> tel=[6601,6602,6603,6604,6605,6606, 


这 里 通信 录 存 储 在 两 个 list 9 
阅 某 个 人 的 电话 号 码 ， 


显得 很 不 方便 。 


Pp( 一 个 list 是 姓名 ， 一 个 


6607,6608] 


ist 是 对 应 的 手机 号 )， 但 是 要 查 


为 了 便于 查阅 ， 在 Python 中 有 另外 一 种 存储 方式 : 


是 


了 


都 是 pair， 包 含 关键 字 key、value 两 部 分 。 


种 映射 类 型 (mapping type)， 它 是 一 个 无 序 的 “ 键 : 值 ” 对 外 


了 o 


入 


每 一 个 元 素 


key 是 Integer 或 string 类 型 ，value 是 任意 类 型 。 即 : 


{key: value} 


关键 字 (key) 必 须 使 用 不 可 变 类 型 ， 在 同一 个 字 


>>> die {} 
> ee 
> print (dic tely 


# 创 建 一 个 空 字典 
{'Jack':1557, 
# 打 印字 典 


0 


/a2N\. 


中 ， 关 键 字 必 须 互 不 相同 。 例 如 : 


"Rose':1886} # 创 建 一 个 字典 


wx WaiRaA 人 


LTOm es L200 "Momo Ia Sao S59 

>>> 

所 以 例 2-4 也 可 以 用 字典 来 存储 。 下 面 用 遍历 的 方法 来 操作 (遍历 将 在 后 面 介绍 )， 其 
原理 是 : 每 次 从 name 中 取 一 个 姓名 ， 记 为 n1， 再 从 tel 中 取 对 应 的 号 码 ， 记 为 t1， 再 把 
nl 和 tl 组 成 键 值 对 n1:t1， 作 为 字典 Tellbook 中 的 一 个 元 素 ， 如 此 循环 ， 就 全 部 构成 了 字 
典 的 元 素 。 

【 例 2-5】 列 表 转 成 字典 : 


>>> name=["Ben","Jone","Jhon","Jerry", "Anny", "Ivy", "Jan", "Wong"] 
>>> tel=[6601,6602,6603,6604,6605,6606,6607,6608] 
>>> Tellbook-{】 # 创 建 一 个 空 字典 


>>> for i in range(len (name)): 


dil="{}".format (name [i]) # 从 name 中 取 一 个 姓名 

d2="{}".format (tel [i]) # 从 tel 中 取 一 个 电话 

Tellbook[d1]=d2 # 再 把 a2 赋值 给 字典 Tellbook 的 al 键 
>>> print (Tellbook) 
on MoO Don HOOT SI GODT a TAnny ss DO0Sty 
IWong"s 6608" Oo 6603", "Jone™: 6602, Jerry Ss 6604"} 


> 


(1) 字典 的 增 、 删 、 改 、 查 。 


以 下 为 字典 的 一 些 常 用 操作 方法 示例 : 

Tellbook['Wang'] = 3 # 给 键 赋值 ， 若 键 不 存在 ， 则 直接 创建 此 键 
del Tellbook['Wong'] # 删 除 一 个 键 值 对 

Tellbook['Ben'] # 通 过 key 查询 对 应 的 值 

list (Tellbook.keys()) # 返 回 所 有 key 组 成 的 1ist 
list(Tellbook.values()) # 返 回 所 有 value 组 成 的 list 

sorted (Tellbook. keys ()) # 按 key 对 字典 排序 

'Ben' in Tellbook # 成 员 测 试 

'Mary' not in Tellbook # 成 员 测 试 


可 以 用 构造 函数 dict0 直 接 从 键 值 对 构建 字典 ， 例 如 : 


>>> dict([('sape', 4139), ('guido', 4127), ('jack', 4098)]) 
C"yutdor a27r "aoRk: 4090, “Sapes dl398 

>>> dict (sape=4139, guido=4127, jack=4098) 

quido' 4127% "Jack 40987 "sape": 4139F 

Sy 


字典 有 .items 方法 : 将 字典 
例如 : 


上 曙 


有 的 元 素 (一 个 键 值 对 ) 转 化 为 元 组 ， 作 为 列表 的 一 个 元 素 。 


33. 


"OO Python 数据 分 析 基 础 


2 遇 人 和 亿 六 六 二天 二 让 

>>> t= d.items() 

>>> print (七 ) 

dict ttems([l (Db, He Co 3 ("ay A 
yo List (Ee) 
[人 

和 


当然 ， 上 面 的 过 程 是 可 逆 的 ， 即 元 组 列表 可 以 初始 化 成 字典 : 


li SS De A | 
>>> d=dict (t) 


>>> print (d) 
2 
>>> 


使 用 update 函数 可 以 合并 两 个 守 


>>> dict = {'Name': 'Zara’', 'Age': 7} 
>>> dict2 = {"Sex": female 
>>> dict.update (dict2) 
2 
{'Age': 7, 'Sex': 'female', 'Name': 'Zara'} 
>>> 
tuple 作为 键 可 以 创建 字典 : 
>>> seq = ('name', '‘'age', 'sex') 


>>> dict = dict.fromkeys (seq) # 给 字典 key 的 赋值 来 自 segq 
>>> dict # 因 为 仅 有 key， 没 有 value， 所 以 显示 键 值 为 空 None 


{'sex': None, 'age': None, 'name': None} 

>>> dict = dict.fromkeys (seq，10) # 给 字典 键 值 对 赋值 ， 这 里 假设 都 荆 10 
>> ALCt 

Ceex 3s 10, "Ags TO, "hame ly: 10. 

>>> 


字典 有 下 列 “.” 方 法 : 


D.get (key, 0) # 同 dict [key] ， 此 处 参数 为 0 (也 可 以 是 其 他 的 ， 如 none)， 
# 表 示 字 典 D 中 车 没有 key 键 则 返回 指定 的 值 0 


D. keys () # 返 回 字 典 键 的 列表 

D.values () # 返 回 字典 值 的 列表 

D.items() # 将 字典 转化 为 元 组 作为 元 素 的 一 个 列表 

D.update (dict2) # 合 并 字典 ， 将 dict2 增加 到 当前 的 字典 中 

D.pop (key) # 从 字典 中 删除 指定 的 键 值 对 ， 键 名 这 个 参数 必须 有 
D.popitem() # 没 有 参数 则 从 字典 中 随机 删除 一 个 键 值 对 。 已 空 则 抛 出 异常 
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D.clear() # 清 空 字典 ， 不 同 于 del dict 是 删除 字典 
D.copy() # 拷 贝 字典 

Dictl=dict.copy() # 克 隆 ， 即 另 一 个 浅 拷贝 ， 深 拷贝 则 是 deepcopy 
示例 如 下 : 


25>% dict=t{'Sex : 10, "ages 0 ame 10} 
>>> dict.get('sex'，'None') # 若 没有 sex 键 ， 则 返回 指定 的 None 


10 

>>> dict.keys() # 要 想 获取 键 名 列表 ， 直 接 1ist (dict .keys () ) 即 可 
dCLeReye (EVs Vagqery name ly 

>>> dict.items() # 要 想 获取 键 值 列表 ， 直 接 tuple (dict .keys () ) 即 可 
dict items([('sex', 10), ('age', 10), ('name', 10)]) 

>>> dict.pop('sex') # 删 除 sex 键 值 对 

10 

SP diet 


{"age' 107 names 10} 

>>> dict['sex']=10  ”# 增 加 键 值 对 sex: 10 

Sp ict 

{'sex': 10, 'age': 10, 'name': 10} 

>>> dict.popitem() # 随 机 删除 一 个 键 值 对 

('sex', 10) 

>>> dict 

{'age': 10, 'name': 10} 

>>> dictl=dict.copy() +# 复 制 ( 浅 拷贝 ) 一 个 字典 ， 浅 拷贝 只 对 简单 类 型 拷贝 
> 过 CT 

{'age': 10, ‘name': 10} 

>>> dict.clear() # 清 空 字典 ， 不 是 删除 字典 ， 即 得 到 一 个 空 字典 
>>> dict #dict 已 经 变 成 了 一 个 空 字典 

{} 

>>> import copy  # 导 入 copy 函数 (或 者 是 模块 ) 

>>> dict=copy.deepcopy (dict1)  # 深 拷贝 ， 将 dict1 拷贝 给 dict 
>>> dict 


{'age': 10, 'name': 10} 

>>> 

【 例 2-6】 字 典 内 置 get 方法 的 调用 。 
段 设 用 户 在 终端 输入 字符 串 :“1”、“2” 或 “3”， 则 返 
则 返回 “error"。 程 序 如 下 : 


>>info = {TI firet rr 7 Icon nr Sthird 
>>>print (info.get (input('input type you number:'),'error')) 


他 的 ， 


加 


对 应 的 内 容 ， 如 果 输 入 


Ey 


input type you number:2 


second 


.(35\. 


"nO Python 数据 分 析 基 础 


人 


可 顾 一 下 D.get(key, None) 的 用 法 : 表示 字典 D 中 若 有 key 这 个 键 ， 则 返回 其 键 值 ， 若 


没有 key 键 ， 则 返回 指定 的 值 None。 当 然 ， 这 里 的 None 也 可 以 改写 成 D.get(key， “哈哈 ， 
别 逗 ， 你 输 错 了 ! )， 当 没有 key 键 的 时 候 ， 则 返回 “哈哈 ， 别 近 ， 你 输 错 了 ! ， 


具体 程序 如 下 : 


SL ww I rt ny 

>>>print (info.get (input ('input type you number:')，' 哈 哈 ， 别 逗 ， 你 输 错 了 ! ')) 
input type You number:5 

哈哈 ， 别 逗 ， 你 输 错 了 ! 

>>> 


(2) 字典 的 排序 。 
在 程序 中 使 用 字典 进行 数据 信息 统计 时 ， 由 于 字典 是 无 序 的， 所 以 打印 输出 的 字典 内 


容 也 是 无 序 的 。 因 此 ， 为 了 方便 结果 查看 ， 需 要 对 字典 进行 排序 。Python 中 字典 的 排序 分 


为 按键 key 排序 和 按 值 value 排序 。 


@ 按 “ 值 ”排序 。 
按 “ 值 ”排序 ， 就 是 根据 字典 的 value 进行 排序 ， 可 以 使 用 内 置 的 sorted0O 函 数 。 
例如 : 


>>> dict={' 班 级 ': 1, 'age': 10, 'score': 10} 


>>> sorted(dict.items(), key=lambda e:e[1], reverse=True) 
[Ge TO Cage 2 20 ("奖级 1 二 7] 
>>> 


其 中 e 表示 dictitemsO 中 的 一 个 元 素 ，e[1] 则 表示 按 值 排序 。reverse=False 可 以 省 略 ， 


默认 为 升序 排列 。 


| 隐 | 说 明 : 字典 的 ,items0O 函 数 返回 的 是 一 个 列表 ， 列 表 的 每 个 元 素 都 是 一 个 键 和 值 组 成 


的 元 组 。 因 此 ，sorted(dict.items()，key=lambda e:e[1]，reverse=True) 返 回 的 值 
同样 是 由 元 组 组 成 的 列表 。lambda 函数 后 面 会 专门 介绍 。 

@ 按 “ 键 ”排序 。 

对 字典 进行 按键 排序 也 可 以 使 用 sorted0 函 数 ， 只 要 修改 为 sorted(dict.items0， 


key=lambda e:e[0], reverse=True) 即 可 。 


4. set 


集合 (set) 是 一 个 无 序 、 不 重复 元 素 的 重 


J 


讼 


， set 的 基本 功能 是 去 重 。 可 以 使 用 大 括号 {} 或 


者 set0 函 数 创建 set 集合 。 


.1s6\， 


于 


2.2. 


i 


注意 : 创建 空 集合 必须 用 set()， 不 能 使 用 { }， 因 为 { } 是 用 来 创建 空 字典 的 。 


例如 : 

> tdent = Lom Un “Mary yy “TOm re "Mack yy “Rosa”: 
>>> print (student) # 重 复 的 元 素 被 自动 去 掉 

Cima ek Mer AGOaD ry Ton 

>>> 'Rose' in student #membership testing (成 员 测 试 ) 

True 


>>>student.add ('Ben') ”# 增 加 一 个 元 素 
>>> print (student) 


3535{'Jim', "Jack', Mary's "Rose', ‘Tom', 'Ben"} 


集合 的 运算 

>>> a = set('abracadabra') # 将 字符 串 拆 成 集合 
>> 8 

人 

>>> b = set('alacazam') # 将 字符 串 拆 成 集合 
>>> b 

Cr 

>>> a-b # 从 a 中 去 除 b 的 元 素 
oe 

>>> alb #a 和 b 的 并 集 
人 

>>> 5 # 提 取 a 和 b 的 公共 元 素 一 一 交集 


ree 
>>> ab  # 提 取 a 和 b 中 不 同时 存在 的 元 素 (交集 的 补 集 ， 也 叫 对 称 差 ) 


{lr z ,mb','d'} 


py 
浪 
中 
东 
站 
几 


jh 


。 集 合 有 过 沪 


>>> set((2,2,2,4,4)) 
{24 
>>> 


11 格式 化 输出 


1，% 格 式 化 输出 


Python 用 print 进行 格式 化 输出 ， 有 以 下 几 种 模式 。 
(1) 输出 字符 串 : 


1 


复元 素 的 功能 ， 自 动 将 重复 元 素 删 除 。 例 如 : 


# 有 


(37N. 
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>>> print ("His name is %s"%("Aviad")) 
His name is Aviad 
>>> 


打印 输出 的 内 容 里 (“His name is %s”%(“Aviad”)) 有 两 个 %， 其 中 %s 表示 先 在 “His 


name is %s” 这 个 字符 串 中 占 个 位 置 ， 而 后 面 的 “Aviad" 才 是 %s 位 置 上 真正 要 显示 的 内 容 ， 
也 就 是 %s 位 置 上 要 显示 的 内 容 在 后 面 % 的 括号 内 ， 即 “Aviad”。 


./ 38. 


(2) 输出 整数 : 


>>> print ("He is %d years old"%(25)) 
He is 25 years old 
>>> 


第 一 个 例子 中 %s 是 要 蔡 字 符 串 占 位 置 ， 这 里 的 %d 表示 要 输出 后 面 提供 的 整数 。 
(3) 输出 浮 点 数 : 

>>> print ("His height is sf m"%(1.83)) 

His height is 1.830000 m 

2 

这 里 %f 表示 输出 后 面 提供 的 浮 点 数 。 

(4) 输出 浮 点 数 (指定 保留 小 数 点 位 数 ): 


>>> print ("His height is $%$.2f m"%(1.83)) 


His height is 1.83 m 
>>> 


这 里 的 %.2f 表示 只 显示 小 数 点 后 两 位 数字 ， 也 就 是 指定 了 保留 小 数 点 位 数 。 
(5) 输出 指定 占 位 符 的 宽度 : 


>>> print ("Name:$%$1l0s Age:%8d Height:%8.2f"$ ("Aviad",25,1.83)) 
Name: Aviad Age: 25 Height: “ee 
>>> print('i love $$.29°"% "python') 


i love py 
>>> 


(6) 输出 指定 占 位 符 的 宽度 ( 左 对 齐 ): 


>>> print ("Name:$-10s Age:%-8d Height:%-8.2f"$("Aviad",25,1.83)) 
Name:Aviad Age:25 Height:1.83 
>>> 


(7) 指定 占 位 符 (0 或 者 空格 ): 


>>> print ("Name:$-10s Age:%08d Height:%08.2f"%("Aviad",25,1.83)) 
Name:Aviad Age:00000025 Height:00001.83 


i 


人 


2. format 格式 化 输出 


mm 


格式 化 字符 串 的 函数 str.format0 可 谓 威力 十 足 。format 函数 跟前 面 的 % 型 格式 化 字符 
B 相 比 ， 其 优越 性 是 通过 {} 和 .来 代替 %， 看 如 下 示例 : 

>>> '{0},{1}'.format('yubg',39) # 这 里 的 0 和 1 表示 的 是 位 置 索引 

"yubg,39" 

>>> {lr,{}',.format('yubg',39) # 位 置 索引 也 可 以 为 空 

'yubg, 39' 


>>> '{1}, {0}, {1}'.format ('yubg',39) # 可 以 接受 多 个 参数 ， 位 置 可 以 无 序 
'39,yubg, 39" 
>>> 


format 的 关键 字 参 数 : 


>>> '{name}, {age}' .format (age=39,name='yubg') 
'yubg, 39°' 
>>> 


有 多 个 输出 需要 多 个 占 位 符 时 ， 可 以 通过 设 定 下 标 加 以 区 分 : 


>>> p=['yubg',39] 
>>> {OTOH {OL} .format(p) 


"Yubg, 39' 

>>> 

格式 限定 符 : 它 有 着 丰富 的 格式 ， 比 如 填充 与 对 齐 ， 语 法 为 {} 中 带 :号 。 填 充 和 对 齐 经 
常 一 起 使 用 。 

© 人 居中 ， 后 面 带 宽度 。 

@ ”< 一 一 左 对 齐 ， 后面 带宽 度 。 


@ > 一 一 右 对 齐 ， 后面 带宽 度 。 


@ :一 一 后 面 带 填充 的 字符 ， 只 能 是 一 个 字符 ， 不 指定 时 ， 默 认 是 用 空格 填充 。 
例如 : 

>>> '{:>8}' .format ('189') # 默 认 是 用 空格 来 占 位 ， 要 显示 的 内 容 靠 右 对 齐 

1 189' 

>>> '{:0>8}' .format('189') # 用 0 来 占 位 

'00000189" 

>>> '{:a<8}' .format ('189') # 用 字母 a 来 占 位 ， 要 显示 的 内 容 靠 左 对 齐 
"189aaaaa' 

>>> '{:* 人 7}' .format('189')# 用 * 来 占 位 ， 共 显 示 7 位 ， 要 显示 的 内 容 居 中 
5xy189xxn 
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"nO Python 数据 分 析 基 础 
>>> 
精度 与 类 型 f 精度 常 跟 浮 点 数 类 型 了 一 起 使 
例如 : 


Sop 2) "Eomat (21 33345) # 保 留 两 位 有 效 数字 
2 335 
>>> 


2.2.12 strip、split 


1. strip() 


strip、 lstrip、Istrip 的 使 用 方法 如 下 。 

@ strip: 去 掉 字符 串 两 边 的 空格 。 

@ lstrip: 去 掉 字符 串 左边 的 空格 。 

@ rstrip: 去 掉 字 符 串 右边 的 空格 。 

Python 中 的 strip 用 于 去 除 字符 串 的 首尾 字符 ， 同 理 ，lstrip 用 于 去 除 左 边 的 字符 ， 
rstrip 用 于 去 除 右边 的 字符 。 这 三 个 函数 都 可 以 传 入 一 个 参数 ， 指 定 要 去 除 的 首尾 字符 。 需 
要 注意 的 是 ， 传 入 的 是 一 个 字符 数组 时 ， 编 译 器 去 除 两 端 所 有 相应 的 字符 ， 直 到 没有 匹配 
的 字符 为 止 ， 例 如 : 


>>> theString = 'saaaay yes or no yaaaass' 
>>> print (thestring.strip('say')) 

yes or no 

>>> thestring 

"saaaay yes or no yaaaass' 

>>> 


theString 依次 被 去 除 首尾 在 ['s’,‘a’,‘y*] 列 表 内 的 字符 ， 直 到 字符 不 在 数组 内 ， 所 以 ， 输 
出 的 结果 为 : yes or no。 当 然 ， 这 里 生成 的 是 一 个 “副本 ”， 不 会 改变 原来 的 字符 串 


theString。 
lstrip 和 rstrip 的 原理 一 样 。 当 没有 传 入 参数 时 ， 是 默认 去 除 首尾 的 空格 。 
例如 : 
>>> theString = 'saaaay yes or no yaaaass' 


>>> print (thestring.strip('say') ) 
yes or no 
>>> theString.strip('say') 


"ye or To 


.a0N. 


i 


>2> thestring.stript'aay 小 
"es Or no 

>>> thestring.lstrip('say') 
”yes or no yaaaass' 

>>> theString.rstrip('say') 
"saaaay yes or no ' 

2 


2. split() 


split0 的 作用 是 对 字符 串 进 行 分 割 。 
(1) 按 某 个 字符 分 割 。 如 按 … 进 行 分 割 ; 


>>> str = (www.i-nuc-com') 


I 


>>> print (str) 

WWW.i-nuc.com 

> tr plit = SUH PLL 
>>> print(str split) 


[WwW 46'y CoM] 


让 

(2) 按 某 个 字符 分 割 ， 且 分 割 n 次 。 如 按 … 分 割 1 次 : 
>>> str = ('www.i-nuc.com') 

SS Er alit = gle eplie( erly 


>>> print (str split) 

['www', 'i-nuc.com'] 

>>> 

(3) 按 某 个 字符 (或 字符 串 ) 分 制 ， 且 分 割 n 次 ， 并 将 分 割 完成 的 字符 串 ( 或 字符 ) 赋 给 新 
的 n+l 个 变量 。 

如 按 … 分 割 字 符 ， 且 分 割 1 次 ， 并 将 分 割 后 的 字符 串 赋 给 两 个 变量 strl 和 str2: 


>>> url = ('www.i-nuc.com') 

SS tel qtr2 ~ rleapDlie( re ly 
Sw> print(strl. etr2y) 

Www i-nuc.com 

>>> print (str1) 

WWW 

>>> print (str2) 

i-nuc.com 

> 


【 例 2-7】 提取 下 面 字符 串 中 的 50,0,51: 


(4 


oo 区》 Python 数据 分 析 基 础 


>>> 3S 七 了 一 "XXXXXXXXXXXX5 [50,0,51]>,xxxxxxxxxx" 
9 
>>> print (lst) 

ESO "Qe 5h" 

>>> 


分 解 如 下 : 


>>> list =str.split ("[") 按照 左边 分 割 

>2> printb (listy 

[ "xxXXXXXXXXXXX5 ', '50,0,51]>,xxxxxxxxxx'] 

>>> str.split("[") [1] .split("]") # 再 对 1ist 的 index=1 的 元 素 按 "] "分 割 
['50,0,51', '>,xxxxxxxxxx'] 

>>> str.split("[") [1] .split("]") [0] # 提 取 分 割 后 的 第 一 个 元 素 ， 即 index=0 
0 

>>> str.split("[") [1] .split ("]") [0] .split(",") # 对 提取 后 的 按 “, ”分 割 
Do Or tLH] 

> 


2.2.13 divmod() 


divmod0: 返回 的 商 和 余数 是 一 个 tuple。 
格式 : divmod( 被 除数 ， 除 数 ) 

返回 值 : ( 商 ， 余 数 ) 

例如 : 


>>> 七 = divmod(7,3) 


回 


St 
(2, 1) 
>>> 


或 者 : 


>>> quot,rem = divmod(7,3) 
>>> print (quot, rem) 

mb 

2 


2.2.14 join() 


使 用 join0 函 数 ， 可 以 把 一 个 list 或 者 tuple 中 所 有 的 元 素 按照 定义 的 分 隔 符 (sep) 连 接 
起 来 ， 但 限于 元 素 是 字符 型 。 


(42. 


wx WooAE 人 


语法 : “sep’join(seq) 
例如 : 


六 


>>> sep 


|! 


1".join (a) 


ND i Ny) 

> Vimointsy 

三 

>>> c=[1,2,3] 

2 

Traceback (most recent call last): 

File "<pyshell#50>", line 1, in <module> 

Ste 

TypeError: sequence item 0: expected str instance, int found 

PD mt V2 .33 

Gy 

we 

>>> 


本 章 小 结 


本 章 知 识 点 较 多 ， 
(1) 测试 变量 类 型 : 

type (变量 ) 

(2) 转换 变量 类 型 ; 

str (变量 ) ”4# 将 变量 转换 为 str 

int (变量 ) ”4# 将 变量 转换 为 int 

(3) 查询 相关 命令 的 属性 和 方法 dir0: 


> QLr (list) 


点 是 list、tuple、dict、set。 


ER Mi Contalns 1 delattr So delitem 
四 es .0 A format i > 
"OULDut rn OLICOm te (AL MP Nodh add 


0 0 0 
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Vo Pll MO nor 7 Pew My TouUe Met Padico ow 

repr es reversed ', ' rmul ey 2 克 放 setitem ', 

1 sizeof ', ' str ', ' subclasshook ', 'append', 'clear', 'copy', 
"count '， ‘extend', 'index', 'insert', '‘'pop', 'remove', 'reverse', 'sort'] 
> 


从 上 面 的 列表 中 可 以 看 出 ，list 删除 有 两 个 属性 pop 和 remove(pop 默认 删除 最 后 一 个 
元 素 ，remove 删除 首次 出 现 的 指定 元 素 )。 
(4) 查询 已 安装 的 模块 ; 


help('modules') 


对 于 初学 者 而 言 ， 也 许 dir0 和 helpO 这 两 个 函数 是 最 有 用 的 ， 使 用 dir0 可 以 查看 指定 
模块 中 包含 的 所 有 成 员 或 者 指定 对 象 类 型 支持 的 操作 ， 而 helpO 函 数 则 返回 指定 模块 或 函 
数 的 说 明文 档 。 例 如 : list 和 tuple 是 否 都 有 pop 和 sort 方法 呢 ? 那 用 help 查 一 下 ， 就 很 清 
楚 了 ， 并 且 列 出 了 具体 的 用 法 : 


>>> help (list) 


回 


Help on class list in module builtins: 


append(...) 


L.append (object) -> None -- append object to end 


1 

1 

1 

| pop(...) 
| 工 .pop ( [index] ) ->item--zemove and return :item at index (default last). 
| Raises TndexError if list is empty or dndex aa out of ranges 

| sort(...) 

1 


L.sort (key=None, reverse=False) -> None -- stable sort *IN PLACE* 


>>> help (tuple) 


Help on class tuple in module builtins: 


count 
T.count (value) -> integer -- return number of occurrences of value 


index(...) 
T.index(value, [start, [stop]])->integer--return first index of 


| Raises ValueError if the value is not present. 


>>> 


(5) 查询 两 个 变量 的 存储 地 址 是 否 一 致 ， 使 用 idO 即 可 。 
(6) 查询 字符 的 ASCII 码 (十 进 制 的 ): 
>>> ord("a’) 


.44N. 


i 


97 
>>> 


反 过 来 ， 有 了 十 进 制 的 整数 ， 如 何 找 出 对 应 的 字符 ? 


>>> ehr (97) 


(7) 查找 字符 串 的 长 度 : 

len() 

(8) str 通过 索引 能 找 出 对 应 的 元 素 ， 反 过 来 ， 能 否 通过 元 素 找 出 索引 ? 
>>>s='python good' 

>>>s [1] 

1y! 

>>>s.index('y') 


>>> 


(9) tuple、list、string 的 相同 点 。 

每 一 个 元 素 都 可 以 通过 索引 来 读 取 ， 都 可 以 用 len 测 长 度 ， 都 可 以 使 用 加 法 “+” 和 数 
乘 “*”。 数 乘 表 示 将 tuple、list、string 重复 数 倍 。 

list 的 .append、.insert、.pop、.del 和 list[m] 赋 值 等 方法 属性 均 不 能 用 于 tuple 和 str。 

(10) str.split0 是 将 字符 型 转化 成 list， 如 下 例 : 


>>> s='I love python, and\nyou\t?hehe' 
>>> print(s) 


I love python, and 


you ?hehe 


> 3 pl em) # 英 文 “，” 

['I love python, and\nyou\t?hehe'] 
>33 epilt(n ny Fh 

['I love python', 'and\nyou\t?hehe'] 
> 


当 分 隔 符 不 在 字符 串 中 时 ， 会 整体 转化 成 一 个 list。 例 如 : 


9 


[ET love, python, and", "vou'’y ?Nehe’] 
>>> 


当 分 隔 符 省 略 时 ， 会 按 所 有 的 分 隔 符 号 分 割 ， 包 括 \n( 换 行 ) 和 \t(tab 缩 进 ) 等 。 
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(11) Split 的 道 运算 :join。 例 如: 


vsep'. JoOin(Llist) 


(12) 列表 和 元 组 之 间 是 可 以 相互 转化 的 : list(tuple)、tuple(list)。 

元 组 的 操作 速度 比 列表 快 ， 列 表 可 以 改变 ， 元 组 不 可 变 ， 可 以 将 列表 转化 为 元 组 “ 写 
保护 ”; 字典 的 key 也 要 求 不 可 变 ， 所 以 元 组 可 以 作为 字典 的 key， 但 元 素 不 能 有 重复 。 

(13) 字符 串 检测 开头 和 结尾 : string.endswith(‘str’)、string.startswith(“str’)。 

例如 : 


>>> file = 'F:\\data\\catering dish profit.xls' 
>>> file.endswith('xls') # 判 断 file 是 否 以 xls 结尾 
True 


>>> 

>>> url = ‘http://www.i-nuc.com' 

>>> url.startswith('https') # 判 断 url 是 否 以 https 开头 
False 


六 


(14) S.replace( 被 查找 词 ， 蔡 换 词 )， 查 找 与 蔡 换 。 例 如 : 


>>> S='I love python, do you love python?"' 
>>> Sreplace('python'r RY 

'I love R,: do you love R?" 

>>> 


(15) re.sub( 被 蔡 词 ,替换 词 ， 蔡 换 域 ,flags=re.IGNORECASE): 查找 与 替换 ， 忽 略 大 小 
写 。 例 如 : 


>>> import re # 导 入 正则 模块 

>>> S='I love Python, do you love python?' 

>>> re.sub('python','R',S) # 在 s 中 用 R 蔡 换 Python 

'I love Python, do you love R?' 

>>> re.sub('python','R',S，flags=re.IGNORECASE) # 蔡 换 时 忽略 大 小 写 
'I love R, do you love R?' 

>>> re.sub('python','R',S[0:15], flags=re.IGNORECASE) 

we Ry 
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(16) Python 命名 规范 。 
@ 包 名 、 模 块 名 、 局 部 变量 名 、 函 数 名 : 全 小 写 + 下 划 线 式 驼峰 。 
如 : this_is_var。 


@ 全 局 变量 : 全 大 写 + 下 划 线 式 驼峰 。 
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如 : GLOBAL VAR。 

@@ 类 名 : 首 字母 大 写 式 驼峰 。 

如 : ClassName0。 

四 关于 下 划 线 。 

以 单 下 划 线 开头 ， 是 弱 内 部 使 用 标识 ，from M import * 时 ， 将 不 会 导入 该 对 象 。 
以 双 下 划 线 开头 的 变量 名 ， 主 要 用 于 类 内 部 标识 类 私有 ， 不 能 直接 访问 。 

双 下 划 线 开头 且 双 下 划 线 结尾 的 命名 方法 尽量 不 要 用 ， 这 是 标识 。 


练 习 


(1) 已 知 : a=2,b=3， 要 求 : 将 a 和 b 的 值 调换 ， 并 打印 结果 。 

(2) 已 知 : a=250,b= ‘250'”， 要 求 : 阐述 a 和 b 所 引用 的 对 象 的 区 别 。 

(3) 计算 : 100 除 以 3 得 到 的 商 、 余 数 分 别 是 多 少 ?” 如 果 保 留 3 为 小 数 ， 则 结果 将 是 
多 少 ? 
(4) 请 解释 如 下 现象 : 
222 FOUNd(2.615, 2) 


2 
>>> 


(5) 精确 计算 : 2 除 以 6。 要 求 : 结果 以 分 数 形式 (1/3) 输 出 。 

(6) 要 求 : 在 print0 里 面 将 “明月 几时 有 ”和 “把 酒 问 青天 ”两 句 分 两 行 输入 ， 但 输 
出 结果 时 在 一 行 。 

(7) 编写 程序 ， 要 求 输入 姓名 和 年 龄 ， 并 且 将 年 龄 加 10 之 后 ， 与 姓名 一 起 输出 。 

(8) 将 字符 串 “map” 的 字符 顺序 倒转 为 “pam” 。 

(9) 证 用 户 输入 一 个 单词 ， 并 显示 这 个 单词 的 长 度 。 

(10) 已 知 字符 串 : “Python is a widely used high-level, general-purpose, interpreted, 
dynamic programming language.” 要 求 : 将 字符 串 中 每 个 单词 的 第 一 个 字母 都 变 成 大 写字 
母 ， 最 终 样 式 如 下 : 


"Python Is A Widely Used High-level, General-purpose, Interpreted, 


这 


Dynamic Programming Language. 


(11) 已 知 列表 : [“python”, “java”,“c”, “c++”“lisp”]。 要 求 : 用 切片 方式 将 此 列表 中 的 
第 1、3、5 项 取出 来 。 

(12) 生成 一 个 由 100 以 内 能 够 被 5 整除 的 数组 成 的 列表 ， 然 后 将 该 列表 的 数字 从 大 到 
小 排序 。 
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(13) 已 知 两 个 列表 : citys = [“suzhou 
[“0512”，“021”，“0571”，“025”]。 要 求 : 创 妇 


中 的 元 素 为 value。 
(14) 已 知 : 列表 1st1=[1,2,3,4,5,6]，1st2=[“a”,“b”,“c”,“d”]。 要 求 : 以 lstl 的 元 素 为 key， 


”, “shanghai”, “hangzhou”, “nanjing”*], codes = 
一 个 字典 ， 以 citys 中 的 元 素 为 key， 以 codes 


由 


以 lst2 的 元 素 为 value 建立 一 个 字典 ， 并 打印 输出 。 
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二 


从 本 章 开 始 ， 不 再 一 行 一 行 地 执行 代码 ， 而 是 将 整 段 代码 写 完 后 再 执行 。 本 章 暂 时 还 
使 用 形态 便捷 的 Python 3.5。 

从 开始 菜单 里 打开 Python 的 IDLE， 在 弹出 的 Shell 窗口 中 选择 File 一 New File 菜 音 
命令 ， 即 弹出 一 个 空白 的 文本 框 窗口 ， 如 图 3-1 所 示 。 


| 8 prthon 3.51 Shell 


性 


3-1 在 IDLE 中 新 建文 件 


利用 第 2 章 中 的 例 2-5 字典 案例 ， 一 次 性 地 把 代码 写 完 ， 并 保存 在 指定 的 目录 下 ， 命 


名 为 testl.py， 后 缀 默认 是 .py。 然 后 选择 菜单 栏 中 的 Run 一 Run Module 命令 即 可 ， 或 者 
直接 按 下 快捷 键 fF5， 即 会 弹出 运行 结果 窗口 。 具 体 情 况 如 图 3-2 所 示 。 


[8 testl.py - C/Users/yubg/AppData/Local/Programs/Python/Python35-3.. — 口 x 
Fle Edit Format Run OQptions Window Help 
coding TF-B ~ 


memeT [adore Joners 


d2: 1 i 
41book [和 9232"。 % 革 提 az 计 个 基因 哎 往 冯 衬 次 1o11book 的 i 久 
print (Tellbook) 


Ln:9 Cok 33 


区 人 


File Edit Shell Debug Options Window Help 


ee 3.5.1 (v3.6.1; 37a07cee5969，Dec 6 2016, 01:36:48) [MSC v.1900 32 bit (In < 
tel)] ,on win32 
Tpe “copyright”, “crodits” or “licenseO)” for nore infornation. 


= RESTART fc 0 BY = 
an, : ,0007,, Mong”:, O009",, Tvy,: » 0609， 505  ， Jerry， :6604 
Me “6603, “6601 "Jone’ : *6602°} 


3-2 IDLE 新 建文 件 界面 及 程序 运行 结果 


当 写 多 行 测试 代码 时 ， 会 经 常 需 要 注释 掉 大 段 代码 ， 这 时 候 不 再 是 每 行 添 加 #， 而 是 
在 注释 的 代码 段 第 一 行 前 添加 一 个 空 行 ， 写 上 三 个 单 引号 (**) 或 者 三 个 双 引 号 ， 再 在 段 尾 
添加 一 行 ， 也 写 上 三 个 单 引号 或 者 三 个 双 引 号 ， 也 就 是 将 要 注释 的 代码 段 放 在 两 个 三 引号 


./s0N. 


之 间 。 当 然 ， 也 可 以 将 要 注释 的 代码 段 选中 ， 按 下 F3 键 上 


P 要 取消 注释 的 代码 段 ， 按 下 F4 键 即 可 。 


品 
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可 ; 当 要 取消 注释 时 ， 只 须 选 


还 注意 : ”在 Python 中 ， 可 以 在 各 种 编码 间 相 互 转换 ， 有 时 因为 编码 的 问题 ， 会 出 现 
乱码 。 如 果 在 “.py” 文 件 中 使 用 了 中 文 ， 则 需要 在 文件 的 第 一 行使 用 如 下 
语句 指定 字符 编码 集 : # _* coding:UTF-8 _*_。 

关于 代码 操作 快捷 键 ， 应 牢记 如 下 操作 规则 。 
(1) 当 有 多 行 代码 需要 整体 缩 进 时 ， 选 中 代码 ， 缩 进 用 Ctrl+]， 取 消 缩 进 用 Ctrl+[。 
(2) 注释 多 行 代码 除了 使 用 三 引号 “ 包 起 来 ”的 办 法 ， 还 可 以 选中 要 注释 的 多 行 代 
码 ， 按 下 Altt3， 取 消 注释 则 按 下 Alt+4。 
常用 的 快捷 键 见 表 3-1。 
表 3-1 常用 的 快捷 键 
快捷 键 功能 说 明 
Alt+P 浏览 上 一 条 命令 
Alt+N 浏览 下 一 条 命令 
CultF6 重启 Shell 
AltH/ 自动 补 全 曾 出 现 过 的 命令 单词 
Ctrl+] 缩 进 代码 块 
Ctrl+[ 取消 代码 块 缩 进 
Alt+3 注释 代码 块 
Alt+4 取消 代码 块 注释 
当 Python 的 IDLE 中 代码 字体 偏 小 时 ， 可 以 在 菜单 栏 中 选择 Options 一 Configure 


IDLE 命令 ， 在 弹 上 设置 字体 和 大 小 ， 如 


的 设置 对 话 框 品 


| ee] 地] em] neo 


3-3 所 示 。 


3-3 IDLE 界面 参数 设置 
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3.1 流程 控制 


3.1.1 if-else 


if-else 分 支 语句 结构 的 特点 是 当 条 件 condition 满足 时 ， 执 行 if 下 的 语句 块 ， 当 条 件 


condition 不 满足 时 ， 执 行 else 下 的 语句 块 。if-else 的 语法 结构 如 下 : 


if conditon: 
statement1 
else: 


statement2 


if-else 需要 注意 的 格式 问题 : 

@ 在 下 和 else 行 尾 均 要 加 冒号 “:”。 

@  f 和 else 下 的 每 条 语句 都 要 用 缩 进 ， 即 显示 逻辑 层次 关系 ， 缩 进 4 个 空格 或 者 一 
个 Tab 键 ，Tab 键 和 空格 不 能 混用 ， 以 免 程序 出 错 。 

@ ”每 个 语句 各 占 一 行 。 

证 else 条 件 语句 具有 多 种 结构 形式 。 

(D 只 有 一 个 条 件 和 单一 的 可 能 性 操作 时 ， 如 果 满 足 条 件 就 执行 第 二 行 。 例 如 : 

i=3 

EE 


Print (MYyou are right:") 


(2) 当 根 据 单一 条 件 有 两 种 不 同 操作 时 ， 可 以 使 用 else， 当 条 件 满足 时 执行 if 下 的 语 


句 块 ， 条 件 不 满足 时 执行 else 下 的 语句 块 ，else 要 与 这 对 齐 。 例 如 : 


.saN\. 


i=3  #or i=0 
让 

Brint ("i 大 于 TI 
elses 


Print (dp 
(3) 如 果 还 有 更 多 的 条 件 ， 可 以 使 用 elif。 例 如 : 


Lf ls 
peint(" 大 于 1) 
G11 413 
和 
else: 


PE) 
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3.1.2 for 循环 


使 用 for var in field:， 可 以 枚 举 field 中 的 所 有 元 素 var， 并 进行 循环 处 理 。 
(1) for 循环 语句 常用 于 遍历 列表 ， 基 本 句 型 如 下 : 


> For i Ln [27374]3 


print (i,end=',') 


2,3,4, 
>>> 


上 面 的 代码 意思 是 将 列表 [2,3,4] 中 的 每 一 个 元 素 输出 。 在 print 语句 中 加 上 end=',， 表 
示 将 结果 显示 在 一 行 中 ， 用 逗号 () 分 隔 开 。 
(2) for 循环 可 以 帮助 处 理 字符 串 。 假 如 想 分 别 输出 字符 串 中 的 每 一 个 字母 ， 则 : 


Do for Tn Do 


print (1) 


>>> 


(3) for 经 常 和 range 内 置 函 数 配 合 在 一 起 使 用 。 例 如 : 


>>> fOr 1 in range(t3): 


print (i) 


>>> 


(4) for 循环 可 以 用 来 生成 列表 。 如 用 range(3) 来 生成 列表 [0,1,2]， 然 后 使 用 循环 来 计 
算 x 的 平方 ， 放 入 列表 中 : 

>>> [x**2 for x in range(3)] 

[0, 1, 4] 

实习 这 

(5) for 与 这 同 用 ， 表 示 按 条 件 来 生成 列表 。 如 生成 100 以 内 偶数 平方 构成 的 列表 : 


>>> [x**2 for x in range(10) if x%2==0] 
[Or A T6236. 64] 
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3.1.3 while 循环 


while 语句 用 于 循环 执行 程序 ， 即 在 某 个 条 件 下 循环 执行 某 段 程序 ， 以 处 理 需 要 
处 理 的 相同 任务 ， 直 到 不 满足 循环 条 件 时 终止 。 

其 基本 形式 如 下 : 

while < 判断 条 件 >: 

< 执行 语句 > 

执行 语句 可 以 是 单个 语句 或 语句 块 。 判 断 条 件 可 以 是 任何 表达 式 ， 任 何 非 零 或 非 空 

CulD) 的 值 均 为 True。 当 判断 条 件 为 假 False 时 ， 循 环 结束 。 
【 例 3-1】 在 Python 的 IDLE 编辑 器 中 写 入 以 下 代码 : 


i=0 

while i<5: 
print('This is '+str(i)) # 将 i 转化 为 字符 型 才能 用 “+” 连 接 输 出 
i+=1 # 相 当 于 i=i+1 


将 以 上 代码 保存 ， 并 按 F5 键 运行 ， 输 出 结果 如 下 : 


This is 0 
This is 1 
THis isa:2 


Thia Ts 3 
This is 4 
This T3885 
>>> 


与 while 语句 相关 的 还 有 另外 两 个 重要 的 命令 ， 即 continue 和 break， 用 来 跳 过 循环 。 
continue 跳 过 该 次 循环 继续 执行 下 一 个 循环 ， 而 break 则 是 完全 退出 while 循环 。 
此 外 ，“ 判 断 条 件 ” 还 可 以 是 个 常数 值 ， 表 示 循 环 必定 成 立 。 


3.1.4 continue 和 break 


在 循环 执行 过 程 中 ， 如 果 遇 到 continue， 则 跳 过 这 一 次 执行 ， 继 续 进 行 下 一 次 的 循环 
操作 。 如 共有 10 次 循环 ， 运 行 到 第 8 次 时 遇 到 了 continue， 那 么 第 8 次 循环 马上 中 止 ， 后 
而 的 代码 不 再 执行 ， 继 续 开 始 第 9 次 循环 。 

在 循环 执行 过 程 中 ， 只 要 直到 break， 就 停止 循环 ， 跳 出 整个 while 循环 。 

【 例 3-2】 在 Python 的 IDLE 编辑 器 中 写 入 以 下 代码 : 


.sa\. 
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输出 结果 如 下 : 


在 使 用 continue 编写 循环 语句 时 ， 要 避免 误 入 死 循 环 ， 如 : 


"OO Python 数据 分 析 基 础 


本 例 欲 输出 小 于 10 的 奇数 ， 但 进入 了 死 循环 。 因 为 当 i=2 时 被 整除 ， 于 是 进入 
continue， 后 面 的 printQ) 和 it=1 都 不 再 执行 ， 但 此 时 的 i 依然 是 等 于 2， 所 以 继续 进入 
计 2， 如 此 循环 往复 ， 只 有 强行 终止 才能 退出 。 

对 上 面 的 代码 稍 做 修改 即 可 正常 运行 了 : 

>>> i=1 

>>> Wiile Lx10 

if i$%2 == 0: 


i+=1 


continue 
print (i) 
i+=1 


own 


>>> 


3.2 遍 历 


如 果 给 定 一 个 list 或 tuple， 我 们 可 以 通过 for 循环 来 输出 list 或 tuple 中 的 每 一 个 元 
素 ， 这 个 过 程 称 为 遍历 。 这 种 遍历 也 称 为 迭代 (Iteratiom)。 在 Python 中 ， 连 代 是 通过 for in 


3.2.1 range() 函 数 


可 以 用 rangeO0 函 数 生 成 一 个 列表 : 


>>> for LT in rangel(o): 


print (i,end=',") 


v2 3 
>>> 
range(5) 中 的 参数 5 代表 从 0 到 4 的 一 个 长 度 为 5 的 序列 。Python 中 的 索引 序列 一 般 
都 是 左 闭 右 开 的 ， 即 不 包含 右边 的 数据 。 此 遍历 也 可 以 改写 成 一 句 : 


> Eint([ti For i in range(ts)yyy) 
| 
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当然 ， 可 以 自 定义 需要 的 起 始点 和 结束 点 : 


>>> list (range (1,5)) # 代 表 从 1 到 5， 不 包含 5 
[2 A 
>>> 


| 出 | 说 明 : 在 以 前 的 版 本 中 ，range0 浮 数 直接 返回 一 个 列表 ， 但 在 3.5 版 本 中 ，rangeO 
作为 一 个 容器 存在 。 当 需要 将 它 作 为 列表 时 ， 只 要 用 list 转化 一 下 即 可 ; 如 
果 需 要 将 它 作 为 元 组 ， 只 要 用 tuple 转化 一 下 即 可 。 例 如 : 


>>> a=range (5) 
So Tist(a) 

| ee | 
>>> tuple (a) 

(or 全 > 二 汪 
>>> 


定义 一 个 从 5 开始 到 100 结束 的 列表 : 


>>> listB =[1 for 1 in range'(5»100)] 

3 DEint (Luin) 

[SP op TB D7 0 EL T2707 19 Id7 or Ton LI i107 IO 20 21. 227 237 
24r 257 26 21 287 297 30r 31r 432 33, 34, 35r 36r 31r 38r 39r 407 ‘41lx 
42 437 441 45, 46;: 47,: 48, 49, S50 51, 52: 53; 547 .557 S56, S7; 58; :59v 
G0 G1 G2 637 dr bo G6 GN 687 BO TO TP JT27 T7375 T4757 T7672 715 
人 T7907 B80 lH 827 B37 4, ‘B97 BO B27. BB 89. S90 STL, 92 93 94 95 
D6 (97 08 298] 

>>> 


range() 函 数 还 可 以 定义 步 长 ， 下 面 定 义 一 个 从 1 开始 到 30 结束 ， 步 长 为 3 的 列表 : 


>>> print ('range (1, 30,3) 表示: riist(range (tl;30r3))) 
vangetlr a 3 Te dT TD Sr LO TO 22 Wor 261 
>>> listC =[i for 1 in ranyge(l,30,3)] 

SP PELnEtALLSte} 

El Mn Vy Te or Tr To 227 Zn 5] 


range() 函 数 也 可 以 倒序 ， 格 式 为 range(a,b,-1)，a 要 大 于 b。 例 如 : 


>>>list (range{(5, 0, -1)) 

[Sy A 3 2 

>>>list (range(5，0，-2)) # 步 长 为 -2 
| 

>>> 
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【 例 3-3】 对 array 进行 排序 ， 在 Python 的 IDLE 中 输入 下 面 的 代码 


array = [1, 2, 5, ‘3, 67 7, 4] 


For i dn range(len(array)y 人 OF 1)s 


print (i) 
for j in range (0, i): 
print(j ,end="',') 
if array[j] > array[j + 1]: 
arraylj lr arrayll + 1] = arraylj + 1]y arraytd] 


print (array) 

分 析 这 段 代码 : 

行 1: array = [1, 2, 5, 3, 6, 7, 4]， 是 一 个 乱 序 的 list。 

行 2: for i in range(len(array) - 1, 0,，-1):， 蔡 换 后 就 成 为 range(6,0,-1)， 意 思 是 从 6 到 


0， 步 长 为 -1， 随 后 把 这 些 值 循环 赋 给 i，i 的 值 将 会 是 6, 5, 4, 3, 2, 1 。 


了 六 
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行 4: forj in range(0, i 这 是 一 个 循环 赋值 给 j 的 语句 ，j 的 值 将 会 是 [0, 1, 2, 3, 4, 5][0， 
3, 4][0, 1, 2, 3][0, 1, 2][0, 1]。 

那么 上 边 两 个 循环 嵌 套 起 来 将 会 是 : 

=6 

Qliy2,3r4,5 


Np 


E 
0 2 
i 


js Oily2.3 


行 6: ifarray[j] > array[j + 1]， 判 断 array 的 前 后 两 个 元 素 大 小 。 
行 7: array[j], array[j + 1] = array[j + 1], array[j]， 蔡 换 赋值 。 
本 例 执 行 的 结果 如 下 : 


6 

0,1,2,3,4,5,5 

0 7 2 3 dd 

0 2 3 

2 

0 
0 


其 实 ， 使 用 sort0 函 数 就 能 完成 以 上 排序 问题 ; 
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> PEST Br 7 A 
>>> array.sort () 

>>> array 

[2 

>>> 


【 例 3-4】 求 100 到 1000 的 水 仙 花 数 。 若 =a^3+b^3+c^3， 则 称 i 为 水 仙 花 数 。 


>>> for i in range(100,1000): 
ge = %10 
SO 0 
Ba 77/ 1700 


i goatoani tba em 
print (i) 
53 
370 
3 
407 
a 


3.2.2 ”列表 与 元 组 的 遍历 


如 果 需 要 遍历 一 个 数字 序列 ， 可 以 使 用 Python 中 内 建 的 函数 range()。 
例如 ， 下 面 遍历 一 个 列表 test_list: 


>>> test list =[1,3,4,'Hongten',3,6,23,'hello',2] 
>>> for i in range(len(test list)): 


print (test list[i],end="',') 


1,3,4,Hongten,3,6,23,hello,2, 
S33 
元 组 的 遍历 : 


>>> tup= (1abd"v '123"') 
>>> for i in range(len(tup)): 


print (tup[i]) 
abd 


123 
>>> 


.(s9\. 
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./e0N. 


二 元 元 组 的 遍历 : 
for i in range(len(user)) : 


for | in ranga(len (user))s 


print ("Userl "tstr(i)t][l'+str(I)+"l="' User[ti][li]y) 


再 如 : 


user=((1,2), (3,4)) 
for i in range(len(user)): 
for j in range(len (user)): 


print('user[l'+str (i)+']['+str(j)+']=",user [4] [3]) 


输出 : 


user[0][0]= 1 
user[0][1]= 2 
user[1][0]= 3 
Dar blllds 4 


多 维 元 组 需要 稍微 改动 : 


for i in range(len (user)): 


CE 


for j in range(len(user[i])): 


print (serl'sete(l)t ll +otr(tjyt lar ruaserlitily 


例如 : 


Meere(t (lr 2 9A tad Sr (Sr6)) 
for i in range (len(user)): 
for j in range(len (user[i])): 


print('user['+str(i)+'] ['+str (j)+']=',user[i] [j]) 
输出 : 


user[0][0 
user[0][1 
user[0][2 
user[l0][3 
user[1] [0] 
user[1] [1]= 
user[1] [2]= 
user[l1] Ed 
user[2] [0]= 
user[2] [1]= 


UI 
momoummewwwnN 


] 
] 
] 
] 


第 3 章 议程 详 制 及 西数 与 类 履 ,Rg 


3.3 项 数 
3.3.1 函数 的 定义 


在 Python 中 ， 函 数 定义 的 基本 形式 如 下 : 


def function (Params) : 
block 


return expression/value 


说 明 如 下 。 
(1) 在 Python 中 采用 def 关键 字 进 行 函数 的 定义 ， 不 用 指定 返回 值 的 类 型 ， 另 外 注意 
def 行 尾 的 冒号 “:” 不 能 丢 ; 函数 的 命名 一 般 首 字母 不 要 大 写 ， 以 区 别 后 面 讲 到 的 类 。 
(2) 函数 参数 params 可 以 是 零 个 、 一 个 或 者 多 个 ， 同 样 ， 函 数 参 数 也 不 用 指定 参数 并 
型 ， 因 为 在 Python 中 ， 变 量 都 是 弱 类 型 ，Python 会 自动 根据 值 来 维护 其 类 型 。 
(3) return 语句 是 可 选 的 ， 它 可 以 在 函数 体内 的 任何 地 方 出 现 ， 表 示 函 数 调用 执行 到 
此 结束 ; 如 果 没有 return 语句 ， 会 自动 返回 NONE， 如 果 有 return 语句 ， 但 return 后 面 没 
有 接 表达 式 或 者 值 ， 则 也 返回 NONE。 返回 的 值 就 是 输出 的 功能 ，retum 可 以 返回 多 个 
值 ， 如 return a,b,c， 以 逗号 分 隔 ， 相 当 于 返回 一 个 tuple( 定 值 表 )， 相 当 于 return (ab,c)。 
应 注意 ， 函 数 体内 部 的 语句 在 执行 时 ， 一 旦 执行 到 return 时 ， 函 数 就 执行 完毕 ， 并 将 
结果 返回 。 
因此 ， 函 数 内 部 通过 条 件 判断 和 循环 可 以 实现 非常 复杂 的 逻辑 。 如 果 没 有 retum 语 
句 ， 函 数 执行 完毕 后 也 会 返回 结果 ， 只 是 结果 为 None。return None 可 以 简写 为 return。 
(4) 一 般 在 block 中 还 包含 有 一 个 注释 体 一 一 函数 文档 ， 功 能 是 解释 这 个 函数 的 功 
， 用 两 个 三 引号 包围 起 来 ， 放 在 block 的 最 前 面 ， 也 是 为 了 方便 能 help 函数 查询 。 
【 例 3-5】 在 Python 的 IDLE 中 输入 以 下 代码 : 
def printHello(): 
PTINt CIESLID 二 


def readNum(): 
for i in range(0,5): 
printti) 
return 


def add(a,p): 
return a+b 


print (printHello()) 
print (readNum()) 


"nO Python 数据 分 析 基 础 
print (add (1,2)) 


输出 结果 如 下 : 


>>> 
Hello 


None 


3.3.2 ”函数 的 使 用 


在 Python 中 ， 函 数 的 使 用 有 严格 的 规定 ， 函 数 不 允许 前 向 引用 ， 即 函数 应 当 定义 在 
前 ， 使 用 在 后 。 
例如 : 


print (add (1,2)) 
def add(a,b): 


return a+b 


程序 的 执行 结果 如 下 : 


这 
Traceback (most recent call last): 
File "C:/Users/yubg/AppData/Local/Programs/Python/Python35-32/test5.py", 
line 1, in <module> 
print (add (1,2)) 
NameError: name 'add' is not defined 
Sm 


从 报错 中 可 以 看 出 ， 命 名 为 add 的 函数 未 进行 定义 。 所 以 在 调用 某 个 函数 时 ， 必 须 确 
保 此 函数 定义 在 调用 之 前 ， 即 先 定义 函数 ， 然 后 再 调用 。 上 述 程序 可 修改 如 下 : 


def addq(avb) : 
return at+b 
print (add (1,2)) 


/eaN. 
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3.3.3” 形 参 和 实 参 


形 参 全 称 是 形式 参数 ， 在 用 def 定义 函数 时 ， 函 数 名 后 面 括号 
在 调用 函数 时 提供 的 值 或 者 变量 称 作 实际 参数 ， 实 际 参数 简称 为 实 参 。 
【 例 3-6】 形 参 和 实 参 : 


# 这 里 的 a 和 b 就 是 形 参 
def add(avb) : 
return a+b 


# 这 里 的 1 和 2 是 实 参 
add (1,2) 


# 这 里 的 x 和 y 是 实 参 
x=2 

y=3 

adq (x, y) 


3.3.4 ”参数 的 传递 和 改变 


有 的 变量 称 作 形 式 参 


在 大 多 数 高 级 语言 中 ， 对 参数 传递 方式 的 理解 一 直 是 个 难点 和 重点 ， 因 为 它 理 解 起 来 
并 不 是 那么 直观 明了 。 我 们 来 探讨 一 下 Python 中 函数 的 参数 传递 问题 。 

在 讨论 此 问题 之 前 ， 需 要 明确 的 是 ， 在 Python 中 ， 一 切 皆 对 象 ， 包 括 我 们 先前 用 到 的 
字符 串 常 量 、 整 型 常量 等 都 是 对 象 ， 变 量 中 存放 的 是 对 象 的 引用 。 验 证 如 

>>>print (id(5)) 

1482897232 

>>>print (id('python')) 

13845280 

2 

>>>print (id (x) 

1482897184 


>>>y="'hello"' 
>>>print (id(y)) 
57256960 
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人 


先 解释 一 下 函数 id0 的 作 


里 是 一 个 对 象 。 又 如 : 


x=2 

print (id(2)) 
print (id (x)) 
y='hello' 
print(id( "helLlo.)y 
Print (id(y)) 
其 运行 结果 如 下 : 
et 

1683699488 
1683699488 
58192800 


58192800 
>>> 


从 结果 可 以 看 出 ，id(x) 和 id 
在 Python 中 ， 一 切 皆 对 象 。 


。id(object) 返 回 对 象 object 在 其 生 


命 周 期 内 位 于 内 存 中 的 


也 址 ，id 函数 的 参数 类 型 是 一 个 对 象 ， 因 此 ， 由 于 语句 id(5) 没 有 报 


错 ， 就 可 以 知道 5 在 这 


(2) 的 值 是 一 样 的 ，id(y) 和 id(‘hello’) 的 值 也 是 一 样 的 。 
像 2、‘hello* 这 样 的 值 都 是 对 象 ， 


象 ， 而 ‘hello' 是 一 个 字符 


上 就 是 指向 这 段 内 存 。 而 


对 象 。 
请 一 段 内 存 分 配给 一 个 整 型 对 
id(2) 和 id(x) 的 结果 一 样 ， 说 明 id 


的 是 变量 指向 的 对 象 的 地 
个 引用 。 
下 面 再 看 个 例子 : 


X=2 


print (id (x)) 
y=2 

print (id(y)) 
Ss= "heLLor 
print (id(s)) 
t=5 

print (id(t)) 


其 运行 结果 如 下 : 


a 


.eA\. 


bE 。 


上 面 的 x=2， 在 Python 


只 不 过 2 是 一 个 整 型 对 
Pp 实 际 的 处 理 过 程 是 这 样 的 :， 先 


象 来 存储 整 型 值 2， 然 后 让 变量 x 


为 变量 也 是 对 象 ， 所 以 在 


EF 这 是 


函数 在 作用 于 变量 时 ， 其 把 


指向 这 个 对 象 ， 实 际 


有 可 以 将 x 看 成 是 对 象 2 的 一 
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1683699488 
1683699488 
58586016 
58586016 
区 


从 运行 结果 可 以 看 到 ，id(x) 和 id(y) 的 结果 是 相同 的 ，id(s) 和 id(b 的 结果 也 是 相同 的 。 
这 说 明 x 和 y 指向 的 是 同一 对 象 ， 而 t 和 s 也 是 指向 同一 对 象 。x=2 这 人 句 让 变量 x 指向 了 
int 类 型 的 对 象 2， 而 y=2 这 句 执行 时 ， 并 不 重新 为 2 分 配 空间 ， 而 是 让 y 直接 指向 了 已 经 
存在 的 int 类 型 的 对 象 2。 这 个 很 好 理解 ， 因 为 本 身 只 是 想 给 y 赋 一 个 值 2， 而 在 内 存 中 已 
经 存在 了 这 样 一 个 int 类 型 的 对 象 2， 所 以 就 直接 让 y 指向 了 已 经 存在 的 对 象 。 这 样 一 来 ， 
不 仅 能 达到 目的 ， 还 能 节约 内 存 空间 。{=s 这 人 句 变量 互相 赋值 ， 也 相当 于 是 让 t 指向 了 已 经 
存在 的 字符 串 类 型 的 对 象 'hello" 。 
下 面 就 来 讨论 一 下 函数 的 参数 传递 和 改变 这 个 问题 。 
在 Python 中 ， 参 数 传 递 采用 的 是 值 传递 。 先 看 个 例子 : 


def modifyl (m,K): 
m=2 
K=[4,5,6] 


return 


def modify2 (m,K): 
m=2 
K[0]=0 


return 


n=100 
L=[1,2,3] 
modifyl (n,L) 
print (n) 
print (L) 
modify2 (n,L) 
print (n) 
print (L) 


程序 运行 结果 如 下 : 


.1(65\. 
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人 


从 


结果 可 以 看 


bb， 执行 modify10 之 后 , n 和 都 没有 发 生 任何 改变 ， 执 行 modify20 


后 ，n 还 是 没有 改变 , 但 L 发 生 了 改变 。 因 为 在 Python 中 ， 参 数 传递 采用 的 是 值 传递 方 
式 ， 在 执行 函数 modifyl 时 ， 先 获取 n 和 工 的 id0 值 ， 然 后 为 形 参 m 和 天 分 配 空间 ， 让 m 
和 分别 指向 对 象 100 和 对 象 [1,2,3]。m=2 这 人 句 让 m 重新 指向 对 象 2， 而 K=[4,5,6] 这 句 让 


K 重新 指向 对 
和 工 没有 发 4 


象 [4,5,6]。 
任何 改变 。 在 执行 函数 modify2 时 ， 同 理 ， 让 m 和 K 分 别 指向 对 象 2 和 对 


这 种 改变 并 不 会 影响 到 实 参 n 和 工 ， 所 以 在 执行 modifyl 之 后 ，n 


象 [1,2,3]， 然 而 K[0]=0 让 K[0] 重 新 指向 了 对 象 0( 注 意 这 里 K 和 工 指向 的 是 同一 段 内 存 )， 


所 以 对 K 指向 的 内 存 数 据 进 行 的 任何 改变 也 会 影响 到 工 ， 因 此 在 执行 modify2 后 ，L 发 4 


了 改变 。 


3.3.5 


出 


变量 的 作用 域 


在 Python 中 ， 也 存在 作用 域 的 问题 ， 会 为 每 个 层次 生成 一 个 符号 表 ， 里 层 能 调用 外 层 


中 的 变量 ， 而 外 


被 里 层 变 量 屏蔽 掉 。 


【 例 3-7】 不 同 作 


层 不 能 调用 里 层 中 的 变量 ， 并 且 当 外 层 和 里 层 有 同名 变量 时 ， 外 层 变量 会 


域 中 的 变量 : 


def function () : 


X=2 


count=2 


while count>0: 


x=3 
Pint try 


EGR 7 


function () 


运行 结果 如 下 : 


>>> 


x 会 被 


在 函数 function 吕 


够 调 


六 


I 


Ph，while 循环 的 外 部 和 内 部 都 有 变量 x， 此 时 while 循环 外 部 的 变量 
蔽 掉 。 注 意 在 函数 内 部 定义 的 变量 作用 域 都 仅 限于 函数 内 部 ， 在 函数 外 部 是 不 能 
为 ， 一 般 称 这 种 变量 为 局 部 变量 。 
还 有 一 种 变量 叫 作 全 局 变量 ， 它 是 在 函数 外 部 定义 的 ， 作 用 域 是 整个 程序 。 全 局 变量 


可 以 直 


.166\， 


接 在 函数 内 部 应 


， 但 是 ， 如 果 要 在 函数 内 部 改变 全 局 变量 ， 必 须 使 用 global 关键 


字 进 行 声明 。 
【 例 3-8】 全 局 变量 : 
X=2 
def funl(): 


print (x) 


Gef fun2(): 
global x 
KE 


print (x) 


funl() 

fun2() 

print (x) 
运行 结果 如 下 : 
2 

3 


>>> 


# global 语句 用 于 声明 一 个 或 多 个 全 局 变量 


函数 def 定义 的 变量 只 能 在 def 的 内 部 使 


赋值 的 变量 X 与 一 个 在 def 


内 部 被 赋值 的 变量 X 是 完全 不 


， 不 能 在 函数 外 部 使 
的 


同 


分 为 本 地 (def 内 部 ， 除 非 
块 )。 全 
本 地 、 全 局 、 内 置 变量 。 例 


X99 
def add (Ys: 
7 


global 声明 )、 全 


如 : 


retuUEn 艺 


print (add (1)) 


结果 如 下 : 


100 
pe 


global 语句 明 一 个 或 多 个 全 局 变量 。 


和 88 
def funcl)s 


局 声明 global 会 将 变量 名 映射 到 模块 文件 内 部 的 作 


局 (模块 内 部 ) 和 


例如 : 


江 介 站 及 本 政 与 关 人 


个 在 def 之 外 被 


个 变量 。Python 变量 可 以 
内 置 (预定 义 的 _builtin 模 
域 。 变 量 名 的 引 


将 依次 查找 


.(67\， 


oo 区》 Python 数据 分 析 基 础 


3.3.6 


右 依次 进行 ， 对 参数 


global X 
X = 99 


func () 
print (X) 


输出 结果 如 下 : 


def func(): 
global x 


xX=y+2z 
func() 


Print (x,y,2z) 


结果 如 下 : 


Se ee 
>>> 


函数 参数 的 类 型 


先前 我 们 接触 到 的 函数 的 参数 叫 作 位 置 参数 ， 即 参数 是 通过 位 置 进行 匹配 的 ， 从 左 到 


的 位 置 和 个 数 都 有 严格 的 要 求 。 而 在 Python 中 ， 还 有 一 种 是 通过 参数 


的 名 称 来 匹配 ， 这 种 匹配 方式 不 需要 严格 按照 参数 定义 时 的 位 置 来 传递 ， 这 种 参数 叫 作 
键 字 参数 。 


.168\， 


例如 : 


def display (a,b): 
print (a) 
print (b) 


display('hello ','world') 


这 段 程序 是 想 输 出 hello world， 可 以 正常 运行 。 
预期 的 结果 : 


如 果 是 下 面 这 段 代码 ， 可 能 就 得 不 到 
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def display (a,b): 


print (a) 

print (b) 
display('hello') # 这 样 会 报错 
display('world', 'hello') # 这 样 会 输出 worldhello 


可 以 看 出 ， 在 Python 中 默认 是 采用 位 置 参 数 来 匹配 ， 所 以 在 调用 函数 时 必须 严格 按照 
函数 定义 时 参数 的 个 数 和 位 置 来 传递 ， 否 则 将 会 出 现 预想 不 到 的 结果 。 
下 面 这 段 代 码 采 用 关键 字 参 数 传递 ; 


def display (a,b): 


print (a) 
print (b) 


# 下面 两 句 代 码 的 效果 是 相同 的 
display(a='world',b='hello') 
display(b='hello',a='world') 


输出 结果 如 下 : 


world 
hello 


world 
hello 
>>> 


从 上 面 的 输出 结果 可 知 ， 通 过 指定 参数 名 称 传递 参数 时 ， 参 数位 置 对 结果 没有 影响 。 
另外 ， 关 键 字 参数 最 优越 的 地 方 在 于 它 能 够 给 函数 参数 提供 默认 值 。 例 如 : 


def display(a='hello',b='world'): 


print (at+b) 


display() 

display (b='world') 
display(a='hello') 
display('world') 


输出 结果 如 下 : 


helloworld 
helloworld 
helloworld 
worldworld 
> 
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oo 区》 Python 数据 分 析 基 础 


就 分 
到 右 
向 右 


该 形 


3.3. 


在 上 面 的 代码 中 ， 分 别 给 a 和 b 指定 了 默认 参数 ， 即 如 果 不 给 a 或 b 传递 参数 ， 它 们 
别 采 用 默认 值 。 在 给 参数 指定 了 默认 值 后 ， 如 果 传 递 参数 时 不 指定 参数 名 ， 则 会 从 左 
依次 传递 参数 ， 比 如 display(“world*) 没 有 指定 ‘world* 是 传递 给 a 还 是 b， 则 默认 从 左 
匹配 ， 即 传递 给 a。 另 外 ， 默 认 参 数 一 般 靠 右 。 
使 用 默认 参数 固然 方便 ， 但 在 重复 调用 函数 时 ， 默 认 形 参 会 继承 前 一 次 调用 结束 之 后 
参 的 值 。 例 如 : 


def :insert(arL=[]): 


L.append (a) 
print (L) 


insert('hello) 


insert ('world') 


其 运行 结果 如 下 : 
['hello'] 

['hello', 'world'] 
>>> 


7 任意 个 数 的 参数 


一 般 情况 下 ， 在 定义 函数 时 ， 函 数 参数 的 个 数 是 确定 的 ， 然 而 ， 在 某 些 情况 下 ， 参 数 


的 个 数 是 不 确定 的 。 比 如 某 系 统 要 存储 用 户 的 姓名 及 其 小 名 ， 有 些 人 的 小 名 可 能 有 两 个 或 
者 更 多 个 ， 此 时 无 法 确定 参数 的 个 数 ， 就 可 以 使 用 任意 多 个 参数 (收集 参数 )， 使 用 收集 参 


数 时 
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， 只 需 在 参数 前 面 加 上 “*” 或 者 “**” 即 可 。 例 如 : 


def storename (name,*nickName): 


print('real name is %s' sname) 
for nickname in nickName: 


print (nickname) 


storename ('jack') 
storename (u' 詹姆斯 ',u' 小 皇帝 ') 
storename (u' 奥尼尔 ',u' 大 小 鱼 ' ,u' 三 不 沾 ') 


输出 结果 如 下 : 


real name is jack 
real name is 詹姆斯 
小 皇帝 


real name is 奥尼尔 


第 3 辛 、 沪 程 扩 人 及 函数 与 类 履 ,> 


大 器 鱼 
三 十 小 
“+” 和 “w+” 表 示 能 够 接受 0 到 任意 多 个 参数 ，“*” 表示 将 没有 匹配 的 值 都 放 在 同 
一 个 元 组 中 ，“**” 表 示 将 没有 匹配 的 值 都 放 在 一 个 dictionary 中 。 例如: 


def printvalue (a, *s,**d): 


print (a,s,d) 


printvalue (1,2,c=3) 
printvalue (1,3,4,2,c=3,f="1") 


输出 结果 如 下 : 

2 3 
人 
i 


需要 补充 一 点 : 在 Python 中 ， 函 数 是 可 以 返回 多 个 值 的 ， 如 果 返 回 多 个 值 ， 会 将 多 个 
值 放 在 一 个 元 组 或 者 其 他 类 型 的 集合 中 返回 。 例 如 : 
def function () : 
X=2 
y=[3,4] 


return x,y 


print (function()) 


输出 结果 如 下 : 
(27 [37 41) 
pp 


3.3.8 函数 调用 


把 已经 编辑 好 的 程序 代码 保存 成 .py 文件 ， 就 可 以 直接 在 Python 的 IDLE 中 运行 了 ， 
从 菜单 栏 中 选择 File 一 Open... 命 令 打 开 即 可 ， 再 直接 按 F5 键 即 可 运行 。 

Python 可 以 调用 已 保存 为 apy 文件 内 的 所 有 函数 ， 方 案 如 下 。 

(1) 将 a.py 文件 做 成 一 个 包 ， 或 者 直接 和 调用 文件 放 在 同一 个 目录 下 。 

(2) 在 调用 文件 头 引 入 : from a import *。 

这 样 就 可 以 使 用 a.py 文件 内 的 所 有 函数 了 。 


"OO Python 数据 分 析 基 础 


【 例 3-9】 在 prin.py 文件 中 调用 tel.py 文件 。 
文件 tel.py 的 代码 内 容 : 


name=["Ben", "Jone", "John", "Jerry", "Anny", "Ivy", "Jan", "Wong"] 
tel=[6601,6602,6603,6604,6605,6606,6607,6608] 


Tellbook={} 

for i in range (Len (name)): 
dl="{}".format (name [i]) 
d2="{}".format (tel [i] 
Tellbook[d1]=d2 


文件 prin.py 的 代码 内 容 : 


from tel import * 
print (Tellbook) 
Print (this i a test for mportse ry 


prin.py 文件 要 做 两 件 事情 ， 先 把 tel.py 文件 中 的 Tellbook 打印 一 下 ， 再 打印 一 句 话 : 
“this is a test for import.’”。 

执行 文件 prin.py， 其 结果 如 下 : 

CT O03 MBon :OPO done 3 VOIZI TOY DOO OV OPSErY 

E604 "WONgs "8608, "JANTS 607 “Anny: 6605° 

this is a test for import. 

>>> 


72. 


函数 也 一 样 ， 当 我 们 调用 函数 时 ， 也 需要 使 用 import 来 导入 。 
【 例 3-10】 函 数 的 导入 和 调用 。addyu.py 文件 的 内 容 如 下 : 


#addyu.py 
def add(a=0,b=0): 
此 函数 是 计算 两 个 数 的 和 
当 不 输入 参数 时 ,默认 的 是 0+0 


i 


c=atb 
print (c) 

def test (m, K=0,*tup,**dic): 
Print (nm: mn》 
print("K:'rK) 
print ('tup:',tup) 
Print (dics yale) 


Cole 
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在 下 面 的 test_addyu.py 文件 中 调用 addyu.py 内 的 add(a,b) 函 数 : 


#test addyu.py 


from addyu import add 
a=add (1,2) 


这 里 的 from addyu import add 的 意思 是 从 addyu.py 文件 中 导入 add(a,b) 函 数 。 当 然 ， 
如 果 要 导入 addyu.py 文件 中 所 有 的 函数 ， 那 就 是 fom addyu import *， 为 了 避免 导入 所 有 
的 函数 占 内 存 ， 所 以 一 般 用 到 什么 函数 就 导入 什么 函数 。 只 有 当 导 入 的 函数 比较 多 时 ， 才 
使 用 *。 另 外 ， 为 了 防止 导入 的 多 个 模块 中 有 相同 的 函数 名 而 引起 混乱 ， 不 建议 使 用 *。 
执行 test_addyu.py， 结 果 如 下 : 


辐 说 明 : 写 函 数 时 要 养 成 好 的 习惯 写 函 数 文档 ， 即 写 清楚 函数 的 功能 是 什么 、 怎 
么 用 ， 并 把 文档 内 容 用 三 引号 注释 起 来 ， 它 不 是 函数 体 的 执行 代码 ， 它 的 作 
用 是 给 help 提供 查询 的 ， 如 查 上 例 中 addyu.py 文件 的 功能 : 


>>> help(add) 
Help on function addyu in module addyu: 


add (a=0, b=0) 
此 函数 是 计算 两 个 数 的 和 
当 不 输入 参数 时 ,默认 的 是 0+0 


> 


还 是 上 例 ， 按 如 下 输入 ， 并 观察 结果 : 


>>> from addyu import test 
eeS ("a 
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>>> test (al, K=2) 


m: al 
2 
Ca 4) 
dico {} 
>>> 


>>> test('al',2,3,6,fname='yu',name='bg') 


m: al 

并 7 这 

tupd {3 :6 

Qic: ‘{’fname': 'yu', name 'bg'} 
>>> 


>>> test('al',K=2,3,6,fname='yu',name='bg') 
SyntaxError: positional argument follows keyword argument 
>>> test('al',K=2, fname='yu',name='bg') 
m: al 
Ky 
Eup 
dle {fname yu , ame Do} 
>>> test (K=2, fname='yu',name='bg') 
Traceback (most recent call 1ast) : 

File "<pyshell#14>", line 1, in <module> 

test (K=2, fname='yu',name='bg') 

TypeError: test() missing 1 required positional argument: 'm' 


> 


出 错 的 原因 。 
的 一 个 补充 :; 函数 名 其 实 就 是 指向 一 个 函数 对 象 的 引用 ， 完 全 可 以 把 函数 
名 赋 给 一 个 变量 ， 相 当 于 给 这 个 函数 起 了 一 个 “别名 ”。 例 如 : 

Se # 变 量 a 指向 int 函数 

Sy # 可 以 通过 a 调用 int 函数 

< 


3.4 函数 式 编程 


3.4.1 lambda 


lambda 是 匿名 函数 ， 也 叫 行内 函数 。 
具体 用 法 如 下 : 
(7A. 
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f = lambda x : x+2 # 定 义 了 一 个 函数 f(x) =x+2 

g = lambda x,y : x+y # 定 义 了 一 个 函数 f(x,y)=x+y 

lambda 只 是 一 个 表达 式 ， 函 数 体 比 def 简单 很 多 。lambda 表达 式 运 行 起 来 像 一 个 函 
数 。 关 于 lambda 函数 的 用 途 有 两 点 说 明 。 

(1) 对 于 单行 函数 ， 使 用 lambda 可 以 省 去 定义 函数 的 过 程 ， 让 代码 更 加 精简 。 

(2) 在 非 多 次 调用 函数 的 情况 下 ，lambda 表达 式 即 用 即 得 ， 可 以 提高 性 能 。 
3 注意 ; 。 如 果 是 for..in..if( 后 面 将 会 讲 到 ) 能 做 的 ， 最 好 不 要 选择 lambda。 


使 用 lambda 匿名 函数 的 例子 如 下 : 


>>> £ = lambda x,y,zZ:x+ty+z 
Se 

6 

>>> 


3.4.2 reducel() 


使 用 reduce(func0, Z)， 可 以 把 一 个 函数 作用 在 一 个 序列 上 累计 计算 。 其 效果 如 下 : 


reduce le? [xl Xl Md, KY = (EE(F (RT, Kl KA KA) 


Python 中 的 reduce 内 建 函 数 func0 是 一 个 二 元 操作 函数 ， 它 将 一 个 数据 集合 Z( 可 以 是 
列表 或 元 组 等 ) 中 的 所 有 数据 进行 下 列 操作 : 用 函数 funcO 对 集合 Z 中 的 第 1、 第 2 个 数据 
进行 运算 ， 将 得 到 的 结 5 Z 中 的 第 三 个 数据 运算 ， 以 此 循环 。 

例如 : 


from functools import reduce 
def add (x,y): 


return X+Y 


sum=reduce (add, (1,2,3,4,5,6,7)) 

print (sum) 

执行 上 面 的 程序 ， 输 出 1+2+3+4+5+6+7 的 结果 即 28。reduce 就 是 将 add(x,y) 函 数 作 
在 (1,2,3,4,5,6,7) 上 ， 即 : 1 赋 给 x，2 赋 给 y， 再 将 计算 结果 (1+2) 赋 给 x，3 赋 给 y; 再 次 将 
计算 结果 ((1+2)+3) 赋 给 x，4 赋 给 y， 依 此 类 推 。 

当然 ， 也 可 以 用 lambda 的 方法 ， 更 为 简单 : 


>>> from functools import reduce 
>>> sum=reduce (lambda x,y:x+ty, (1,2,3,4,5,6,7)) 
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>>> print (sum) 
28 
>>> 


reduce 在 Python 2.x 中 可 以 直接 用 ， 但 在 Python 3.0 以 后 ， 已 经 不 在 built-in function 
， 要 使 用 它 就 必须 先导 入 : from functools import reduce。 


3.4.3 filter() 


filter0 用 于 过 滤 序 列 。filter() 接 收 一 个 函数 和 一 个 序列 ， 并 把 传 入 的 函数 依次 作用 于 每 


个 元 素 ， 然 后 根据 返回 值 True 或 者 False， 决 定 保留 还 是 丢弃 该 元 素 。 


例如 ， 在 一 个 list 中 ， 删 掉 偶数 ， 只 保留 奇数 ， 代 码 如 下 : 


>>> def is odd(n): 


return n%2==1 
> Liat (rilterttia od [ly 2 dr D7 br dr TO TD]YY 
ls Sr 9 9d 
ee 


再 如 把 一 个 序列 中 的 空 字符 串 删 掉 ， 代 码 如 下 : 


>>> def not empty(s): 


return 8 and setript{) 


> TotFiLier not empty IAT DU Br Nones TOR 0 51 
[I'A', 'B', 'C'] 
SR 


可 见 ， 用 filter0 这 个 高 阶 函数 时 ， 关 键 在 于 正确 地 实现 一 个 “筛选 ”函数 。 
filterO 函 数 还 可 以 实现 行 函数 功能 。 例 如 : 


>>» peli for 1 in range(l,10) 1£ i365/and 1<8] 


> 
[6, 7] 
>>> 


filter0 函 数 改 写 如 下 : 


>>> b=filter (lambda x: x>5 and x<8, range (1,10)) 
>>7 iat (ly 

.1 
i 


回 


filterO 在 Python 2.7 中 直接 返 


一 个 列表 。 但 在 Python 3.x 中 ，filter0 是 一 个 容器 ， 返 


日 


.Te 


时 需 list 调用 才 显 示 数 据 。 
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3.4.4 map() 


map(func，S) 将 传 入 的 函数 fune 依次 作用 到 序列 s 的 每 个 元 素 ， 并 把 结果 作为 新 的 序 
列 返 回 。 
函数 func 在 S 域 上 遍历 ， 在 Python 3.x 中 map0 是 一 个 容器 ， 返 回 时 需 list 调 
才 显 示 数 据 ， 显 示 的 是 func 作用 后 的 结果 数据 。 

【 例 3-11】 比 较 map 和 filter: 

>>> list (map (lambda x:x**2, [1,2,3])) 

[1, 4, 9] 

>> Tist (filter(lambda x x**27 li:273])) 


Ll 3 
>>> 


| 骨 | 说 明 : map 返回 的 是 func 作用 后 的 结果 数据 ， 而 filter 是 通过 func 作用 短 选 出 作用 
域 的 数据 。 Imap 还 可 以 接受 多 个 参数 的 函数 ， 例 如 : 
So Tiot(mar(lamnbds x yx* yt [Ler2r7 3 [Ar S76))) 


LS7 127 21] 
be 


map0、filter0、reduce0 三 个 函数 循环 要 比 for、while 循环 快 得 多 。 


3.4.5 行 函 数 


行 函数 也 叫 列表 解析 或 列表 推导 式 ， 格 式 如 
[<exprl> for k in L if <expr2>] 
【 例 3-12】 将 列表 中 能 被 2 整除 的 元 素 提取 出 来 并 加 上 2: 


list=[1,2,3] 
RRT2 TOF kK in Tist de kK % 2 == 0 


print (A) 


可 行 代码 实现 : 

2 

Fad 

>>> 

列表 推导 式 (list comprehension) 是 利用 其 他 列表 创建 新 列表 (类 似 于 数学 术语 中 的 集合 
推导 式 ) 的 一 种 方法 。 它 的 工作 方式 类 似 于 for 循环 。 例如: 
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>>> [x*x for x in range(10)] 
[Or ly 4r 9 6 257 36% 49; 64, 31] 


>>> 

如 果 只 想 打 印 出 那些 能 被 3 整除 的 平方 数 ， 只 需要 通过 添加 一 个 站 部 分 在 推导 式 中 
可 以 完成 : 

>>> [x*x for x in range(10) if x % 3 == 0] 

[0, 9, 36, 81] 

>>> 


也 可 以 增加 更 多 的 for 语句 部 分 。 例 如 : 


>>> [(x,y) for x in range(3) for y in range(3)] 

LQ, Os (0, 1)s (0 2), (lr 0 (ly 1)s (ls Dr (2, 0), (2, 1), (2, 2)] 
>>> [[x,y] for x in range(2) for y in range(2)] 
TS 

>>> 


3.5 ”常用 的 内 置 函 数 


前 面 已 经 介绍 过 dir、help、len、id、type、range 等 内 置 函 数 ， 除 此 而 外 ， 常 见 的 内 置 


函数 还 有 sum、zip、enumerate、max、min 等 。 


3.5.1 sum 


之 
六 
be 

的 


的 函数 ， 但 要 注意 参数 s 的 类 型 。 


sum(s) 是 Python 中 
例如 : 


>>> s = sum(1,2,3) 
Traceback (most recent call las 
File "<pyshell#0>", line 1, in <module> 
s= sum(l1,2,3) 
TypeError: sum expected at most 2 arguments, got 3 
>>> 


其 实 sum0 的 参数 是 一 个 list。 例 如 : 


>>> sum([1,2,3]) 


>>> sum(range(1,11)) 


78. 


sum 还 有 一 个 用 法 : 

>>> a range(1,11) 

>>> b = range(1,10) 

>>> C = sum([item for item in a if item in b]) 


>>> Pint(c) 
45 
>>> 
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ui 


其 实 ，sum 的 参数 也 可 以 是 集合 、 元 组 ， 甚 至 可 以 是 全 
该 是 数值 型 int。 例 如 : 

>>> a={1,2,3} 

>>> sum(a) 


b=(lr273} 
sum (b) 


Cll oe} 
sum(c) 对 字典 计算 的 是 键 key， 不 是 value 


sum(c.values () ) 


>>> 


从 上 面 可 以 看 出 ， 对 守 
字典 对 象 的 属性 values()。 


3.5.2 zip 


zip(ts) 返 回 + 和 ss 的 一 个 相互 匹配 的 列表 。 例 如 : 


>>> t='abc' 

| 

>2> Zs2ip(t,s) 

<zip object at 0x04104A08> 
23 Ligt (lz) 
相生 让 的 半 拓 
>>> 


车 长 度 不 够 ， 以 最 短 的 为 主 。 例 如 : 


> tp bd 2 
<zZip object at 0x041049E0> 
> i 


人 


3 


sum 计算 的 是 key， 而 不 是 value。 计 算 value 值 时 ， 使 


。 当 然 ， 其 计算 的 对 象 都 应 


.79\. 
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Demat ho a 人生 
>>> 

这 类 似 于 元 组 里 说 的 解 包 。 

再 如 : 

coco 

> Y¥ = Ar Sr 6 

9 


> XV = Zip{tXy VY) Z) 
人 

>>> print (list (u)) 

es Re 
>>> 


一 般 认为 * 是 一 个 unzip 的 过 程 ， 它 的 运行 机 制 如 下 。 
在 运行 zip(*xyz) 之 前 ，xyz 的 值 是 [(1, 4, 7), (2, 5, 8), (3，6, 9)]， 那 么 zip(*xyz) 等 价 于 


zip((1, 4, 7), (2, 5, 8), (3, 6, 9))， 所 以 运行 结果 是 [(1, 2, 3), (4, 5, 6), (7, 8, 9)]。 


试 试 下 面 的 练习 : 
2 
i A 


S37 printtliat (rE) 
AEA Tr TN (7 20 242 Cdr 3 3 
>>> 


上 面 的 代码 运行 机 制 是 这 样 的 : 

@ [x] 生成 一 个 元 素 的 列表 ， 它 只 有 一 个 元 素 x 一 一 列表 。 
@ [xl*3 生成 一 个 列表 ， 它 有 3 个 元 素 [x, x, x]。 

@ zip(* [x] * 3) 的 意思 就 明确 了 ，zip(x, x, x)。 

dict 和 zip 可 以 组 合 使 用 ， 生 成 字典 。 例 如 : 

>>> d= dict (zip('abc', range(1,4))) 

>>> a 

rp on Vo sd ar Ly 

>>> 


3.5.3 enumerate 


enumerate(t) 返 回 t 的 index 和 元 素 对 ，t 可 以 是 字符 串 、 列 表 、 元 组 、 字 典 等 ， 若 是 字 
典 ， 则 返回 的 是 键 名 。 例 如 : 


五 


./e0. 
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SC nd hn hd ho 
>>> for i,k in enumerate (七 ) : 


print (i,k) 


0 first 
二 hz 
2 second 


>>> 


3.5.4 max 和 min 


max0 和 min0 的 参数 同 sum0， 可 以 是 列表 、 元 组 、 集 合 、 字 典 ， 甚 至 可 以 是 
TangeO。 

当然 ， 字 典 默认 的 是 针对 key， 若 需要 对 value 进行 计算 ， 则 需要 使 用 .values() 方 法 。 

例如 : 

>>> a={1:2,3:4,5:6} 

>>> max (a) 


>>> min(a.values ()) 
» 


So Be dA 
>>> min (B) 

a 
>>> 


当 key 不 是 数值 型 时 ， 比 较 的 是 key 的 ASCII 码 。 


3.5.5 eval 


计 


eval0 将 字符 串 str 当成 有 效 的 表达 式 来 求 值 ， 半 


>>>x = 1 

>>>eval('x+1') 

2 

>>0 [12 T3740S26].17781 Ti9r01lW 闪闪 器 是 子 笠 
>>>b 
>>>b 
Utiy 2 Lr ts Loe ly Le Sly TS 0) 
>>>type (b) 

list 


返 


回 


计算 结果 。 例 如 : 


册 


ll 


eval (a) 


(enN. 
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文件 。 如 若 再 运行 下 


182， 


>>>c = "{1: 'a'，2: 'b'}"” # 注 意 c 是 字符 串 
>>>d = eval(c) 

>>>dQ 

人 

>>>type (d) 

dict 

vora = MLlr2l tar orele Lathe CO 
>>>f = eval (e) 

>>>f 


Che Zl 3 alr etoe oh Li Ol ‘9 OY 


a 

但 下 面 的 代码 存在 很 大 的 风险 : 

人 

0 

>>> open('dir.txt') .read() 

”驱动 器 D 中 的 卷 是 soft\n 卷 的 序列 号 是 0046-527B\n\n D:\\python35 的 目录 
\n\n2016-08-13 01:19 <DIR> » \n20L.6708513 "OTs]9 

<DIR> a \Nn2016-06521 22:51 406 0.py\n2016-08-13 

91 19 0 dir.txt\n2016-06-=15 22:07 <DIR> 
DLLs\n2016-06-15 22:07 <DIR> Doc\n2016-06-15 22:06 <DIR> 
include\n2016-06-15 22:07 <DIR> Llib\n2016-06-15 22:07 <DIR> 
liba\n2015=-12=07 19:56 30,338 LICENSE.txt\n2015-12-06 06:32 
310,468 NEWS.txt\n2015-12-06 01:40 38,680 python.exe\n2015-12- 
6 OI:3F 51,480 python3.dll\n2015-12-06 01:39 3,122,968 
Python35 GIL\n2015-12=06 Ql1:40 38,680 pythonw.exe\n2015-11-22 
abl 8,269 README.txt\n2016-06-15 22:08 <DIR> 
Scripts\n2016-06-15 22:08 <DIR> tol\n2016-06-25 T1337 

317 test pyNn2016-06-25. ‘Ti:37 317 test1.py\n2016-06-25 
4 150 TestClass.py\n2016-06-15 22:07 <DIR> 
TOols\n2015-06=25 23:34 85,328 vcruntime1l40.dll\n2016-06-25 
Els38 <DIR> _ pycache _\n 13 个 文件 3,687,401 字 节 
\n 11 个 目录 35, 201,863, 680 可 用 字 节 \n' 

>>> 


执行 上 面 的 两 句 代码， 其 实 就 已 经 在 Python 3.x 安装 目录 下 建立 了 一 个 名 为 dir.txt 的 
两 句 代 码 ， 则 可 以 将 新 建 的 dir.txt 文件 删除 ! 


>>> import os # 导 入 os 模块 
>>> os.system('del dir.txt /q') 


>>> 


一 
也 


新 建 的 dir.txt 文件 已 经 被 删除 了 ! 也 就 是 说 ， 这 两 句 代 码 可 以 删除 本 台 计 算 机 上 


的 人 
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E 何 文件 ! 

下 面 的 代码 请 自行 测试 : 

>>>eval(" jimport ('os').system(r'md c:\\testtest')") 

>>>eval("_ import _{({'o0s').system(r'rd/s/q c:\\testtest')") 
>>>evall("_ import _('os').startfile(r'c:\windows\\notepad.exe')") 
>>> 


3.5.6 ”判断 函数 


下 面 这 几 个 函数 常用 于 判断 。 
(1) in: 常用 于 字符 串 、 列 表 、 元 组 、 字 典 、 和 外 


合 中 ， 用 来 判断 一 个 字符 串 或 者 一 个 


Li 


元 素 是 否 属 于 字符 串 或 者 列表 等 。 同 样 ， 对 应 的 还 有 not in。 


例如 : 


>>aE {a 27 Db 47 "Cue6F 
a na 

True 

> "Ou Tot in a 

False 

>>> 


(2) startswithO、endswithO: 做 文本 处 理 时 ， 用 来 判断 字符 串 


F 始 和 结束 的 位 置 。 


也 
二 


基本 格式 如 下 : 


过 


mn 


S.startswith (prefix[, start[, end]]) 
S.endswith(suffix[, start[, end]]) 


示例 代码 如 下 : 


SS Nfisn" otartewitht'friry 

True 

>>>"fish".startswith('fi',1) # 此 处 的 1 表示 从 索引 位 置 1 开始 
False 

>>> "fish".endswith('sh') 


TEUe: 

>>> "fish".endswith('sh',3) 
False 

2 


Python 的 这 两 个 函数 有 个 特别 的 地 方 一 一 它 的 prefix 和 suffix 参数 不 仅 可 以 是 字符 


， 还 都 可 以 是 一 个 元 组 。 只 要 其 中 一 个 成 立 ， 就 返回 True， 也 就 是 一 种 “或 ”的 关系 。 


.ss \， 


"OO Python 数据 分 析 基 础 


件 。 


例如 : 


Ef filename XGOGSWTLELEI 人 本 证 在 六 可 二 王 在 yy 


全 


上 面 两 行 代码 根据 文 伯 
这 个 代码 也 可 以 写成 : 


print ("%s 是 一 个 图 片 文件 " 


扩展 名 是 否 是 gif、jpg 或 tiff 之 一 来 确定 文件 是 不 是 图 片 文 


Sfilename) 


if filename.endswith(".gif") or filename.endswith(".jpg") or \ # 续 行 
filename.endswith(".tiff"): 
print ("%s 是 一 个 图 片 文件 "%filename) 


不 过 ， 这 样 比较 麻烦 。 值 得 注意 的 是 ， 别 忘 了 元 组 的 括号 。 


(3) isanum0: 检测 字符 串 是 否 仅 由 字母 和 数字 组 成 ， 若 


或 者 


则 返 


都 是 


184， 


加 


其 他 字符 ， 则 都 返 


> SEE ES28832 
>>>print (str.isalnum()) 


True 


间 夹 杂 有 空格 、 标 点 符号 


False。 例 如 : 


>>>str = "this is string example....wow!!!" 


>>>print (str.isalnum()) 
False 

Pt MeLLo” 
>>>print (strl.isalnum()) 
True 

>>> 


(4) isaipha0: 检测 字符 串 是 否 只 由 字母 组 成 。 如 果 字 符 串 中 的 所 有 字符 都 是 字母 ， 


回 


本 True， 和 否则 返 


>>>str = "this" 
>>>print (str.isalpha ()) 
True 


False。 例 如 : 


>>>str = "this is string example....wow!!!" 


>>>print (str.isalpha ()) 
False 
> 


(5) isdigit0: 检查 字符 串 是 


只 包含 数字 (全 由 数字 组 成 )。 如 果 字 符 串 中 的 所 有 字符 


数字 ， 则 返回 True， 和 否则 返回 False。 例 如 

>>>str = "123456" 

>>>print (str.isdigit ()) 

True 

>>>str = "this is string example....wow!!!" 


>>>print (etr.Tsdigit(})) 
False 
>>> 


其 他 内 置 函 数 见 表 3-2。 


内 置 函数 
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表 3-2 ”其 他 内 置 函数 


说 明 


abs(x) 


求 绝对 值 


名 参数 可 以 是 整 型 ， 也 可 以 是 复数 


加 若 参 数 是 复数 ， 则 返回 复数 的 模 


分 别 取 ab 的 商 和 余数 
ae) 注意 ， 整 型 、 浮 点 型 都 可 以 
int([x[, base]]) 将 一 个 字符 转换 为 int 类 型 ，base 表示 进 制 
pow(x, yl, z]) 返回 x 的 y 次 窜 
range([start], stop[, step]) 产生 一 个 序列 ， 默 认 从 0 开始 
round(x[, n]) 0 舍 五 入 
sum(iterable[, start]) 对 集合 求 和 
chrG) 返回 整数 i 对 应 的 ASCII 字 符 
bin(x) 将 整数 x 转换 为 二 进 制 字符 串 
format(value [, format spec]) 人 

格式 化 的 参数 顺序 从 0 开始， 如 “I am {0},I like {1}” 

enumerate(sequence [, start = 0]) 返回 一 个 可 枚 举 的 对 象 ， 其 next0 方 法 将 返回 一 个 tuple 
max(iterable[, args...][key]) 返回 集合 中 的 最 大 值 
min(iterable[, args.…][key]) 返回 集合 中 的 最 小 值 
dict([arg]) 创建 数据 字典 
list([iterable]) 将 一 个 集合 类 转换 为 另外 一 个 集合 类 
setO set 对 象 实例 化 
str([object]) 转换 为 string 类 型 


sorted(iterable[, cmp[, key[, reverse]]]) 


可 


对 集合 列表 排序 ， 不 对 原 集合 列表 排序 ， 返 回 新 的 集合 列表 


tuple([iterable]) 


生成 一 个 tuple 类 型 


dir([object]) 


@ 不 带 参 数 时 ， 返 回 当前 范围 内 的 变量 、 方 法 和 定义 的 类 
型 列表 


加 带 参数 时 ， 返 回 参数 的 属性 、 方 法 列表 


@@) 当 参 数 为 实例 时 ， 如 果 参 数 包含 方法 _ dir _0， 该 方法 


图 如 果 参 数 不 包 含 _. 
数 信 息 


dir ()， 该 方法 将 最 大 限度 地 收集 参 


./e5\. 


wn》 Python 数据 分 析 基础 


续 表 
内 置 函 数 说 明 
eval(expression [, globals [, locals]]) 计算 表达 式 expression 的 值 
id(object) 返回 对 象 的 唯一 标识 
len(s) 返回 集合 长 度 
localsO 返回 当前 的 变量 列表 
map(function, iterable, ...) 遍历 每 个 元 素 ， 执 行 function 操作 
next(iterator[, default]) 类 似 于 iteratornextO 


reduce(function, iterable[, initializer]) 


果 与 第 三 个 合并 进行 处 理 ， 以 此 类 推 


合并 操作 ， 从 第 一 个 开始 是 前 两 个 参数 ， 然 后 是 前 两 个 的 结 


type(object) 
zip([iterable, ...]) 


返回 该 object 的 类 型 
矩阵 变幻 处 理 


file(filoname [, mode [, bufsizc]]) 


中 ， 将 允许 对 文件 同时 进行 读 写 操作 
@ 参数 flename: 文件 名 称 


file 类 型 的 构造 函数 ， 作 用 为 打开 一 个 文件 ， 
在 且 mode 为 写 或 追加 时 ， 文 件 将 被 创建 。 添 加 "到 mode 
参数 中 ， 将 对 文件 以 二 进 制 形式 操作 。 添 加 '+ 到 mode 参数 


如 果 文 件 不 存 


@ 参数 mode: “rr"( 读 )、'w"( 写 )、'a"( 追 加 ) 


加 参数 bufsize: 如 果 为 0， 表示 不 进行 缓冲 ; 如 果 为 1， 表 
示 进 行 缓冲 ， 如 果 是 一 个 大 于 1 的 数 ， 表 示 绥 冲 区 的 大 小 


input([prompt]) 


获取 用 户 输入 ， 返 回 的 结果 是 字符 型 


open(name[, mode[, buffering]]) 


打开 文件 


思考 与 fle 有 什么 不 同 ? 推荐 使 用 open 


printO 


打印 函数 


3.6 ”常见 的 错误 显示 


Python 程序 常见 的 异常 见 表 3-3。 


表 3-3 常见 的 错误 类 型 


异 常 描 _ 述 
NameError 尝试 访问 一 个 没有 声明 的 变量 
SyntaxError 语法 错误 
ZeroDivisionError 除数 为 0 
IndexError 索引 超出 序列 范围 
KeyError 请 求 一 个 不 存在 的 字典 关键 字 
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续 表 
异 常 描述 

IOError 输入 输出 错误 (比如 要 读 的 文件 不 存在 ) 
AttributeError 尝试 访问 未 知 的 对 象 属性 
IndentationError 冒号 换行 后 没有 缩 进 
ValueError 传 给 函数 的 参数 类 型 不 正确 ， 比 如 给 int0 函 数 传 入 字符 串 型 

一 个 常见 错误 的 例子 : 

while 1: 

ep 


r= nt(tinput(’No Ls ")) 
y = int(input('No.2: ')) 


r= x/y 

Print(r, 

except (Exception) as e: 
print (e) 
print('again') 

else: 
break 


File "<ipython-input-15-6f26b9b9c36e>", line 3 
x = int(input('No.1; ')) 


IndentationError: expected an indented block 


的 错误 是 因为 try 行 后 有 冒号 ， 下 一 行 代码 应 该 有 缩 进 ， 包 括 后 面 的 几 行 都 应 该 


一 
国 


3.6.1 常见 的 错误 类 型 


(1) NameError: 尝试 访问 一 个 未 声明 的 变量 。 例 如 : 


NR 
Traceback (most recent call last): 
File "<pyshell#0>", line 1, in <module> 
Vv 
NameError: name 'v' is not defined 
>>> 


(2) ZeroDivisionError: 除数 为 0。 例 如: 


(en. 
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>>> v = 1/0 
Traceback (most recent call last): 
File "<pyshell#1>", line 1, in <module> 
v= 1/0 
ZeroDivisionError: division by zero 
Ps 


(3) SyntaxError: 语法 错误 。 例 如 : 


>>> nt 4 
SyntaxError: invalid syntax 
>>> 


(4) IndexError: 索引 超出 范围 。 例 如 : 


Fo Lisel 2 Lar dl) 
六 > TiSt1iI3] 
Traceback (most recent call last): 
File "<pyshell#4>", line 1, in <module> 
E33 
IndexError: list index out of range 
>>> 


(5) KeyError: 字典 关键 字 不 存在 。 例 如 : 


> DI 
| 
Traceback (most recent, call lasty): 
File "<pyshell#6>", line 1, in <module> 
DiCl 3"] 
KeyError: '3' 
>>> 


(6) AttributeError: 访问 未 知 对 象 属性 。 例 如 : 


>>> str='123"' 
>>> str.append() 
Traceback (most recent call last): 
File "<pyshell#9>", line 1, in <module> 
str.append() 
AttributeError: 'str' object has no attribute 'append' 
23 


(7) ValueError: 数值 错误 。 例 如 : 


S>> jnt('dy 
Traceback (most recent call last): 
Fide "<pyaheolitl0>r line Ll/ in <modulex 
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ValueError: invalid literal for int() with base 10: 'd' 
SS 


tnt ud) 


(8) TypeError: 类 型 错误 。 例 如 : 


> print( TL23" 让 .45 
Traceback (most recent call last): 
File "<pyshell#11>", line 1, in <module> 
Print("l23"+45) 


TypeError: Can't convert "int' object to str implicitly 
>>> 


3.6.2 ”初学 者 常 犯 的 错误 


初学 Python 时 ， 想 要 彻底 弄 懂 Python 错误 信息 的 含义 可 能 有 点 不 容易 ， 下 面 列 出 了 
程序 运行 时 出 现 的 一 些 常见 异常 ， 这 些 异常 也 是 新 手 常 犯 的 错误 。 
(1) 忘记 在 证 、elif、else、for、while、class、def 等 末尾 添加 冒号 (0)， 导 致 出 现 了 
“SyntaxError: invalid syntax” 错 误 。 
该 错误 将 发 生 在 类 似 如 下 的 代码 中 : 
if spam == 42 
print ('Hello!') 


UD 


. 


(2) 使 用 = 而 不 是 一 ， 导 致 出 现 了 “SyntaxError: invalid syntax” 错 误 。 

= 是 赋值 操作 符 而 一 是 等 于 比较 操作 。 该 错误 发 生 在 类 似 如 下 的 代码 中 : 

if spam = 42: 
print ('Hello!') 


二 


(3) 错误 地 使 用 了 缩 进 量 ， 导 致 出 现 了 “IndentationError: unexpected indent”、 
“IndentationError: unindent does not match any outer indetation level” 以 及 “IndentationError: 
expected an indented block” 错 误 。 记 住 缩 进 只 用 在 以 “:” 结 束 的 语句 之 后 ， 而 之 后 必须 恢 
复 到 之 前 的 缩 进 格式 ， 缩 进 是 四 个 空格 。 该 错误 发 生 在 类 似 如 下 的 代码 中 : 
print ('Hello!') 
print('Howdy!') 
或 者 : 


if Span == 427 
Print ("Hellio!') 
print ('Howdy!') 
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或 者 : 

if spam == 42: 

print ('Hello!') 

缩 进 一 定 要 按 层次 缩 进 ， 尽 管 Python 3.5 已 经 做 了 很 多 优化 ， 如 “:” 后 换行 有 时 候 可 
以 只 空 一 个 空格 ， 也 能 执行 ， 但 为 了 保持 代码 的 可 读 性 ， 还 是 应 尽 可 能 地 空 四 格 ， 以 养 成 
良好 的 编写 代码 习惯 。 

(4) 在 for 循环 语句 中 忘记 调用 len0， 导 致 出 现 了 “TypeError: ‘list” object cannot be 
interpreted as an integer” 错 误 。 

通常 想 要 通过 索引 来 迭代 一 个 list 或 者 string 的 元 素 时 ， 需 要 调用 range0 函 数 。 要 返 

len 值 而 不 是 返回 这 个 列表 。 该 错误 发 生 在 类 似 如 下 的 代码 中 : 


spam = ['cat', 'dog', "mouse'] 


加 


for i in range(spam) : 


print (spam[i 


(5) 尝试 修改 string 的 值 ， 导 致 出 现 了 “TypeError: ‘str” object does not support item 
assignment” 错 误 。 
string 是 一 种 不 可 变 的 数据 类 型 ， 该 错误 发 生 在 类 似 如 下 的 代码 中 : 


spam = 'I have a Pet cat.' 


pe 


spam[13] = 'r" 


而 实际 想 要 这 样 做 : 


Spam = "I have Hd pet Gats, 
spam = spam[:13] + 'r' + spam[14:] 


(6) 尝试 连接 非 字 符 串 值 与 字符 串 ， 导 致 出 现 了 “TypeError: Can’t convert “int” object 
to str implicitty” 错 误 。 
该 错误 发 生 在 类 似 如 下 的 代码 中 : 


numEggs = 12 


UH 


print('I have ' + numEggs + ' eggs.') 


而 实际 想 要 这 样 做 : 


numEggs = 12 
print('I have ' + str(numEggs) + ' eggs.') 


或 者 : 


numEggs = 12 
Print('I have %s eggs.' % (numEggs)) 


.eo0N. 


第 3 章 议程 洋 制 及 西数 与 类 履 sR 


(7) 在 字符 串 首尾 忘记 加 引号 ， 导 致 出 现 了 “SyntaxError: EOL while scanning string 
literal ”错误 。 
该 错误 发 生 在 类 似 如 下 的 代码 中 : 


print (Hello!') 


过 


或 者 : 
Print(t"Herro) 
或 者 : 
myName = 'Al' 


print('My name is ' + myName + . How are you?') 


(8) 变量 或 者 函数 名 拼写 错误 ， 导 致 出 现 了 “NameError: name ‘fooba’ is not defined” 


错误 。 
该 错误 发 生 在 类 似 如 下 的 代码 中 : 
foobar = "AL" 
print('My name is ' + fooba) 
或 者 : 
spam = ruond(4.2) 
或 者 


spam = Round (4.2) 


(9) 方法 名 拼写 错误 ， 导 致 出 现 了 “AttributeError: 'str” object has no attribute 
“lowerr" ”错误 。 该 错误 发 生 在 类 似 如 下 的 代码 中 : 


spam = "THIS IS IN LOWERCASE.' 


pe 


spam = spam.lowerr() 


(10) 引用 超过 了 list 的 最 大 索引 ， 导 致 出 现 了 “IndexError: list index out of range” 错 
误 。 该 错误 发 生 在 类 似 如 下 的 代码 中 : 


spam = ['cat', ‘'dog', ‘'mouse'] 


print (spam[6 
(11) 使 用 不 存在 的 字典 键 值 ， 导 致 出 现 了 “KeyError: ‘spam”” 错 误 。 
该 错误 发 生 在 类 似 如 下 的 代码 中 : 


spam = {'cat': 'Zophie', 'dog': 'Basil', 'mouse': 'Whiskers7) 


print('The name of my Pet zebra is ' + spam['zebra']) 


/oN. 
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(12) 尝试 使 用 Python 关键 字 作 为 变量 名 ， 导 致 出 现 了 “SyntaxError: invalid syntax” 错 
误 。Python 关键 字 不 能 用 作 变 量 名 ， 该 错误 发 生 在 类 似 如 下 的 代码 中 : 


Class = “algebra' 


Python 3.x 的 关键 字 有 and、as、assert、break、class、continue、def、del、elif、else、 
except、 False、finally、for、from、global、 if、import、in、is、lambda、None、nonlocal、 
not、 or、 pass、 raise、 return、 True、 try、while、with、yield。 

(13) 尝试 使 用 rangeO 创 建 整数 列表 ， 导 致 出 现 了 “TypeError: ‘range’” object does not 
support item assignment” 错 误 。 

有 时 想 要 得 到 一 个 有 序 的 整数 列表 ， 所 以 range0 看 上 去 是 生成 此 列表 的 不 错 方式 。 然 
而 ，rangeO0 返 回 的 是 range 对 象 ， 而 不 是 实际 的 list 值 。 

该 错误 发 生 在 类 似 如 下 的 代码 中 : 


spam = range (10) 
spam[4] = -1 
而 实际 想 要 这 样 做 : 


spam = list(range (10)) 


spam[4] = -1 


应 注意 : 在 Python 2.7 中 ，spam = range(10) 是 可 行 的 ， 因 为 在 Python 2.7 中 rangeO 
返回 的 是 list 值 ， 但 是 在 Python 3.x 中 会 产生 以 上 错误 。 

(14) 错误 地 使 用 了 ++( 自 增 ) 或 一 ( 自 减 ) 运 算 符 ， 导 致 出 现 了 “SyntaxError: invalid 
syntax” 错 误 。 

如 果 习 惯 于 使 用 C++、Java、PHP 等 其 他 的 语言 ， 也 许 会 想 要 尝试 使 用 ++( 自 增 ) 或 一 
( 自 减 ) 一 个 变量 。 而 在 Python 中 ， 却 并 没有 这 样 的 操作 符 。 

该 错误 发 生 在 类 似 如 下 的 代码 中 : 


spam = 1 


SParm+ 十 


而 真正 想 要 做 的 是 : 


spam = 1 


spam += 1 


(15) 类 中 忘记 为 方法 的 第 一 个 参数 添加 self 参数 ， 导 致 出 现 了 “TypeError: myMethodO 


takes no arguments (1 given)” 错 误 。 
该 错误 发 生 在 类 似 如 下 的 代码 中 : 
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class Foo(): 
def myMethod(): 
print('Hello!') 


= Fonty 
myMethod () 


而 实际 上 应 该 这 样 做 : 


class Foo(): 
def myMethod (self): 
print('Hello!') 


a = Foo() 
a.myMethod() 


3.6.3 try 


在 Python 中 ，try-except 语句 主 于 处 理 程序 正常 执行 过 程 中 出 现 的 一 些 异常 情 
况 ， 如 语法 错误 、 数 据 除 零 错误 、 从 未 定义 的 变量 上 取 值 等 ， 而 try-finally 语句 则 主 
于 监控 错误 的 环节 。 
尽管 try-except 和 try-finally 的 作用 不 同 ， 但 是 在 编程 实践 中 通常 可 以 把 它们 组 合 在 一 
起 使 用 ， 以 try-except-else-finally 的 形式 来 实现 稳定 性 和 灵活 性 更 好 的 设计 。 

Python 中 ，try-except-else-finally 语句 的 完整 格式 如 下 : 


EE 


t 


Normal execution block 
except A: 

Exception A handle 
except B: 

Exception B handle 
except: 

Other exception handle 
else: # 可 无 ， 若 有 必 有 except x 或 except 存在 ， 仅 在 try 后 无 异常 时 执行 

if no exception, get here 
finally: ， # 此 语句 务必 放 在 最 后 ， 并 且 也 是 必须 执行 的 语句 

print ("finally") 


说 明 : 正常 执行 的 程序 在 try 下 的 Normal execution block 块 中 执行 ， 在 执行 过 程 中 ， 
如 果 发 生 了 异常 ， 则 中 断 当前 在 Normal execution block 中 的 执行 ， 跳 转 到 对 应 的 异常 处 理 
块 except x(A 或 B) 中 开始 执行 ，Python 从 第 一 个 except x 处 开始 查找 ， 如 果 找 到 了 对 应 的 
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exception 类 型 ， 则 进入 其 提供 的 exception handle 中 进行 处 理 ， 如 果 没 有 ， 则 依次 进入 第 
二 个 ， 如 果 都 没有 找到 ， 则 直接 进入 except 块 进行 处 理 。except 块 是 可 选项 ， 如 果 没 有 提 
供 ， 该 exception 将 会 被 提交 给 Python 进行 默认 处 理 ， 处 理 方式 则 是 终止 应 用 程序 并 打印 
提示 信息 。 

如 果 在 Normal execution block 执行 块 的 执行 过 程 中 没有 发 生 任何 异常 ， 则 在 执行 完 
Normal execution block 后 ， 会 进入 else 执行 块 中 ( 若 存在 ) 执 行 。 

无 论 发 生 异 常 与 否 ， 若 有 finally 语句 ， 以 上 try-except-else 代码 块 执行 的 最 后 一 步 总 
是 执行 finally 所 对 应 的 代码 块 。 

需要 注意 如 下 几 个 问题 。 

(1) 在 上 面 所 示 的 完整 语句 中 ，try-except-else-finally 所 出 现 的 顺序 必须 是 try 一 except 
x 一 except 一 else 一 finally， 即 所 有 的 except 必须 在 else 和 finally 之 前 ，else( 若 有 ) 必 须 在 
finally 之 前 ， 而 except x 必须 在 except 之 前 。 否 则 会 出 现 语法 错误 。 

(2) 对 于 上 面 所 展示 的 try-except 完整 格式 而 言 ，else 和 finally 都 是 可 选 的 ， 而 不 是 
必需 的 。 但 若 存 在 else， 则 必须 放 在 finally 之 前 ，finally( 如 果 存 在 ) 必 须 放 在 整个 语句 的 最 
后 位 置 。 

(3) 在 上 面 的 完整 语句 中 ，else 语句 的 存在 必须 以 except x 或 者 except 语句 为 前 提 ， 
如 果 在 没有 except 语句 的 try block 中 使 用 else 语句 ， 会 引发 语法 错误 。 即 else 不 能 仅 与 
try-finally 配合 使 用 。 

【 例 3-13】 一 个 try-except-else 的 例子 : 


while 1: 
try: 
w= Lnt(inoutt "No. 1 "YY 
y= int(input('No.2; ')) 


r= x/Y 
print (r) 
except (Exception) as e: # 不 管 什么 异常 ， 都 捕获 给 e 
print (e) 
print('again') 
else: 
break 


这 段 代码 的 意思 是 : 从 键盘 接收 两 个 输入 (数字 或 者 字符 )， 转 化 为 数字 型 做 除法 ， 如 
果 符 合 除法 规则 ， 就 输出 结果 ， 并 跳 转 执行 else 语句 ， 如 果 不 符合 ， 有 错误 ， 则 进入 
except 语句 ， 打 印 错误 原因 ， 并 重新 来 一 次 。 
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看 下 面 的 输入 和 输出 结果 : 


No.1: 1 

No-2: 0 

division by zero 
again 

No.1: 1 

No.2: a 

invalid Titeral for nt()y with Dase TO0s “a? 
again 

No.1: 1 

No.2: 2 

Us 


final 放 在 try 的 最 后 ， 不 管 前 面 发 生 了 什么 ，final 后 面 的 语句 均 执 行 。 


3.6.4 assert 


assert 是 断言 的 关键 字 。 执 行 该 语句 时 ， 先 判断 表达 式 expression， 如 果 表 达 式 为 真 ， 
则 什么 都 不 做 ; 如 果 表 达 式 为 假 ， 则 抛 出 异常 。 例 如 : 


>>> assert len('love') == len('like') 


>>> assert lenl('love u') == len('like') 
Traceback (most recent call last): 
File "<pyshell#15>", line 1, in <module> 
assert len('love u') == len('like') 
AssertionError 
>>> 


可 以 看 出 ， 如 果 assert 后 面 的 表达 式 为 真 ， 则 什么 都 不 做 ， 如 果 为 假 ， 就 会 抛 出 
AssertionError 异常 。 


3.6.5 raise 


当 程 序 出 现 错误 时 ，Python 动 引 发 异常 ， 也 可 以 通过 raise 显 式 地 引发 异常 。 一 
旦 执行 了 raise 语句 ，raise 后 面 的 语句 将 不 能 执行 。 
下 面 演 示 raise 的 用 法 : 


Ev 
s = None 
i Sis Nons: 
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后 ， 


3.7.1 模块 Imodule 


print ("s 是 空 对 象 ") 
raise NameError # 如 果 有 NameError 异常 ， 后 面 代码 都 将 不 执行 
print (len (s)) 
except TypeError: 
print (" 空 对 象 没有 长 度 ") 
执行 结果 : 
s 是 空 对 象 


Traceback (most recent call last): 


File "<ipython-input-18-c87e44fl8de5>", line 5, in <module> 


raise NameError # 如 果 有 NameError 异常 ， 后面 代码 都 将 不 执行 


NameError 


3.7 ”模块 和 包 


先 来 看 一 个 例子 : 


Leta 1 L233etl8] 


>>> sum(a) 
0.0 
>>> 


怎么 会 是 0? 再 执行 下 面 的 代码 : 


>>> import math 


>>> math.fsum(a) 
E50 
>>> 


这 就 对 了 ! 


计算 结果 就 正常 了 。 


模块 是 包含 函数 和 其 他 语句 的 Python 脚本 文件 ， 它 以 “.py” 为 后 缀 名 ， 即 用 


计算 机 由 于 浮 点 数 的 运算 问题 ， 会 导致 上 面 的 结果 有 差异 。 但 是 我 们 引入 一 个 math 


Python 


脚本 的 后 绥 名 。 表 现形 式 为 : 编写 的 代码 保存 为 文件 ， 这 个 文件 就 是 一 个 模块 ， 如 


sample.py， 其 中 ， 文 件 名 sample 为 模块 名 称 。 
在 Python 中 可 以 通过 导入 模块 ， 然 后 使 用 其 模块 中 提供 的 函数 或 者 数据 。 关 了 


.ee 


模块 的 
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导入 方法 ， 这 里 以 math 模块 为 例 : 
@ import math: 导入 math 模块 。 
© importmathasm: 导入 math 模块 并 取 个 别名 为 m。 
@ from math import exp as e: 导入 math 库 中 的 exp 函数 并 取 别 名 为 e。 
想 使 用 import 导入 的 模块 中 的 函数 ， 则 必须 以 “模块 名 .函数 名 ”的 形式 调用 函数 ; 
而 from 是 将 模块 中 某 个 函数 而 不 是 整个 模块 导入 ， 所 以 使 用 from 导入 的 模块 中 的 某 个 函 
数 ， 可 以 直接 以 函数 名 调用 ， 不 必 在 前 面 加 上 模块 名 称 。 例 如 : 


>>> import math as m # 给 math 模块 取 个 别名 m， 使 用 时 用 m 替代 math 
>>> a=[1.23e+18, 1, -1.23e+18] 


>>> m.fsum(a) 
LD 


>>> from math import fsum # 这 里 仅 导 入 了 math 模块 中 的 fsum 函数 
>> Boil 22301, 1, -1.236r18] 
>>> fsum(a) # 直 接 使 用 fsum () 函数 ， 不 再 使 用 math. fsum() 


以 from 导入 模块 中 的 函数 后 ， 使 用 模块 中 的 函数 会 方便 很 多 ， 不 再 使 用 模块 名 。 如 
果 要 想 将 多 个 模块 中 的 所 有 函数 都 采用 这 种 方式 导入 ， 则 可 以 在 from 中 使 用 “*” 通 配 
符 ， 表 示 导 入 模块 中 的 所 有 函数 ， 但 一 般 不 这 么 用 。 如 下 所 示 : 

>>> from math import sqrt # 仅 导入 了 sqrt 函数 

>>> sqrt (4) 

2.0 

>>> cos (4) # 仅 导入 了 sqrt 函数 ， 所 以 cos 函数 不 能 


Traceback (most recent call last): 


File "<pyshell#13>", line 1, in <module> 
cos (4) 

NameError: name 'cos' is not defined 
>>> from math import *  # 将 math 中 的 所 有 函数 全 部 导入 
>>> sqrt (4) 
2.0 
>>> cos (4) 
-0.6536436208636119 
>>> 


为 了 确保 在 Python 2.1 之 前 版 本 的 Python 中 可 以 正常 运行 一 些 新 的 语言 特性 ， 需 要 导 
入 一 个 包 : from future import *。 模 块 就 是 一 个 扩展 名 为 .py 的 程序 文件 。 我 们 可 以 直 
接 引用 它 ， 节 省 时 间 和 精力 ， 无 须 重复 写 同 样 的 代码 。 这 也 表明 Python 是 开源 的 ， 符 合 
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“他 山 之 石 可 以 攻 玉 ”的 思想 。 
我 们 试 着 写 一 个 模块 ， 保 存 为 .py 文件 ， 并 调用 ! 
新 建 一 个 addyu.py 文件 ， 内 容 如 下 : 
#addyu.py 


def add(a=0,b=0): 


此 函数 是 计算 两 个 数 的 和 
当 不 输入 参数 时 ， 默 认 的 是 0+0 


mr 


c=a+b 
print (c) 

def test(m, K=0,*tup,**dic): 
Print (ime amy 
PrinttK: Ky) 
Print ("tuB: ,tup} 
Pri (di 


return 


在 下 面 的 test_addyu.py 文件 中 调用 addyu.py 内 的 add(a,b) 函 数 。test_addyu.py 文件 的 
代码 如 下 : 

#test addyu.py 

from addyu import add 

a=add (1,2) 

这 里 要 注意 addyu.py 保存 的 位 置 。 为 了 让 Python 解释 器 能 直接 import 默认 安装 路 径 
以 外 的 第 三 方 模块 (如 我 们 自行 编写 的 模块 )， 需 要 在 系统 环境 中 添加 第 三 方 模块 路 径 ， 即 
新 建 pythonpath 环境 变量 ， 值 为 这 个 模块 所 在 的 路 径 。 有 具体 方法 如 下 。 

丁 开 计 算 机 “控制 面板 ”， 选 择 “ 系 统 和 安全 ”， 再 选择 “系统 ”， 间 
设置 ”， 弹 出 如 图 3-4 所 示 的 界面 。 

单 击 “ 环 境 变 量 ” 按 钮 ， 在 弹出 的 界面 中 ， 在 “系统 变量 ”下 单 击 “ 新 建 ” 按 钮 ， 在 
弹出 的 “新 建 系统 变量 ”对 话 框 中 ， 为 变量 名 填写 “pythonpath”， 为 变量 值 填写 第 三 方 
模块 文件 所 在 的 路 径 即 可 。 

如 这 里 存储 路 径 填写 了 “Di\python yubg”， 如 图 3-5 所 示 。 
也 可 以 用 临时 访问 文件 的 方法 ， 如 调用 在 E:/yubg/python 中 的 文件 yubg.py: 


import sys 
sys.path.append ('E:/yubg/python') 


和 
双 
民 
冰 
营 


import yubg 
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DIE Pp 
EM TAM BH) sk A 
9 
坦 疹 有 有关 计算 机 的 基本 信息 
Windows 项 本 


Windows 10 专业 


sos ， 国 国 Windows10 


属性 
本 


要 二 行 大 多 数 虹 汉 ， 你 避 涡 作 力 管理 吕 时 录 。 


和 
视 jk 果 ,处 理 史 i 刘 ,内存 舍 用 ,以 及 诺 拉 内 椰 


图 3-4 新建 pythonpath 环境 变量 


x 
yubg 的 用 户 要 量 (U 
a 下 
| | MOZ PLUGIN PATH DAFoxit Reader\plugins\ 
i CAUsersyubg\OneDrive 
Path CNUserswubaWnaconda3;CNUserswubaWAnaconda3\scripts; | 
TEMP 36USERPROPILE36WAPPDataNLocaNTemp 
Te 6USERPROFILEI WAppData\Loca\Temp 
二 (N) Pythonpath 
系统 变 是 变 呈 信 WV): DApython yubg| 
变量 浏览 目录 (Dj.。。 | | 。 浏览 文件 (9. 
co 
NUMEBEROFPROCESSORS 4 
os windows NT 
Path CNWINDOWSIsystema2:CNWINDOWSCNWINDOWS\System | 
PATHEXT COM-EXE;. BAT;. CMD;VBS: VBE: JS; JSE; WSF; WSH MSC 
PROCESSOR ARCHITECT.. x86 
PROCESSOR IDENTIAIER 。 x86 Family 16 Model 5 stepping 3, AuthenticAMD 


D— (mw) | wa | 


确定 取消 


图 3-5 ”存储 路 径 
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3.7.2 包 (package) 


Python 包 是 一 个 有 层次 的 文件 目录 结构 ， 它 定义 了 由 n 个 模块 或 n 个 子 包 组 成 的 
Python 应 用 程序 执行 环境 。 

简单 地 说 ， 包 是 一 个 包含 _init _.py 文件 的 目录 ,该 目录 下 一 定 得 有 _ init _.py 文件 
和 其 他 模块 或 子 包 ， 也 就 是 带 有 _ init _.py 的 文件 夹 ， 并 不 在 乎 里 面 有 什么 。 

多 个 关系 密切 的 模块 组 织 成 一 个 包 ， 以 便于 维护 和 使 用 。 这 项 技术 能 有 效 避 免 名 字 空 
间 冲 突 。 创 建 一 个 名 为 包 名 的 文件 夹 ， 并 在 该 文件 夹 下 创建 一 个 _init_.py 文件 ， 就 定义 
了 一 个 包 。 可 以 根据 需要 ， 在 该 文件 夹 下 存放 资源 文件 、 已 编译 扩展 及 子 包 。 


举例 来 说 ， 一 个 包 可 能 


Yubg/ 
ant PY 


以 下 结构 : 


index.py 
Primitive/ 
RS 
lines.py 
Fl 
text .py 
yubg 1/ 
pit SpY 
plot2d.py 
yubg2/ 
nlite py 
plot3d.py 


以 下 几 种 方式 导入 包 中 的 模块 


import yubg.Primitive.fill 


import 语句 使 


# 导 入 模块 yubg .Primitive.fill1， 只 能 以 全 名 访问 模块 属性 
# 例 如 yubg .Primitive.fill.floodfill (img, x,y,color) 


from yubg.Primitive import fill 
# 导 入 模块 fi11， 
# 例 如 fi11 .floodfill (img,x,y,color) 


from yubg.Primitive.fill import floodfill 


只 能 以 fi11 .属性 名 这 种 方式 访问 模块 属性 


# 导 入 fi11， 并 将 函数 floodfil11l 放 入 当前 名 称 空间 ， 直 接 访问 被 导入 的 属性 


# 例 如 floodfill (img,x,y,color) 
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无 论 一 个 包 的 哪个 部 分 被 导入 ， 在 文件 _init_.py 中 的 代码 都 会 运行 。 这 个 文件 的 内 
容 人 允许 为 空 ， 不 过 ， 通 常情 况 下 ， 它 用 来 存放 包 的 初始 化 代码 。 导 入 过 程 遇 到 的 所 有 
_init_ .py 文件 都 被 运行 。 因 此 ，import yubg.Primitive.fill 语句 会 顺序 运行 yubg 和 
Primitive 文件 夹 下 的 _init _.py 文件 。 

下 面 的 语句 有 歧义 : 


from yubg.Primitive import * 


本 语句 的 原意 是 想 将 yubg.Primitive 包 下 的 所 有 模块 导入 到 当前 的 名 称 空间 。 然 而 ， 
由 于 不 同 平 台 之 间 文 件 命名 规则 不 同 (比如 大 小 写 敏感 问题 )，Python 不 能 正确 判断 哪些 模 
块 要 被 导入 。 语 名 只 会 顺序 运行 yabg 和 Primitive 文件 夹 下 的 _init_.py 文件 。 要 解决 这 
个 问题 ， 应 该 在 Primitive 文件 夹 下 的 _init _.py 中 ， 定 义 一 个 名 字 为 all 的 列表 ， 例 如 : 


# yubg/Primitive/ init .py 
En 


这 样 ， 上 面 的 语句 就 可 以 导入 列表 中 所 有 的 模块 了 。 


3.7.3 ”datetime 和 calendar 模块 


time 模块 提供 各 种 时 间 相 关 的 功能 。 在 Python 中 ， 与 时 间 处 理 有 关 的 模块 包括 time、 
datetime， 以 及 calendar 等 。 

(1) 必要 说 明 。 

虽然 time 模块 总 是 可 用 ， 但 并 非 所 有 的 功能 都 适用 于 各 个 平台 。 模 块 中 定义 的 大 部 分 
函数 是 调用 C 平台 上 的 同名 函数 实现 ， 所 以 各 个 平台 上 的 实现 可 能 略 有 不 同 。 

(2) 一 些 术语 和 约定 的 解释 。 

时 间 戳 (timestamp) 的 方式 : 通常 来 说 ， 时 间 惟 表示 的 是 从 1970 年 1 月 1 00:00:00 
开始 按 秒 计算 的 偏 移 量 (time.gmtime(0))， 此 模块 中 的 函数 无 法 处 理 1970 纪元 年 以 前 的 日 期 
和 时 间或 太 遥 远 的 未 来 (处 理 极限 取决 于 C 函数 库 ， 对 于 32 位 系统 来 说 ， 是 2038 年 )。 
UTC(Coordinated Universal Time， 世 界 协调 时 ): 也 叫 格林 尼 治 天 文 时 间 ， 是 世界 标准 
时 间 。 在 中 国 为 UTC+8。 

DST(Daylight Saving Time): 即 夏令 时 的 意思 。 

【 例 3-14】time 模块 : 

>>> import time # 导 入 时 间 模 块 

>>> tl1=time .time () # 返 回 现在 的 时 间 ， 但 返回 的 是 时 间 戳 

> 


1466828024.2864037 
> 


.To 


"OO Python 数据 分 析 基 础 


回 


现在 的 时 间 ， 正 常 的 时 间 格 式 


>>> t2=time.ctime() # 返 


> tt 
“Sat dun 25 (12 25 2016° 
>>> 


>>> t2=time.ctime (t1)  # 可 以 将 时 间 惟 作为 参数 ， 返 回 正 常 时 间 格 式 


站 
Sat Jun 25 12713:44 2016" 
>>> 


>>> t3=time.localtime()  # 返 回 当 前 的 时 间 元 组 格式 

x2 t3 

time.struct time (tm year=2016, tm mon=6, tm mday=25, tm hour=12, 
tm min=15, tm sec=57, tm wday=5, tm yday=177, tm isdst=0) 

>>> 


>>> t4=time.asctime () # 返 回 现在 的 时 间 ， 正 常 的 时 间 格 式 
> 

"at un A Tle OY 

S33 


>>> t4=time.asctime (t3) # 可 将 时 间 元 组 作为 参数 ， 返 回 正常 的 时 间 格 式 


>>> 七 4 
te 
>>> 


当前 日 期 ， 以 /分 割 ， 也 可 换 成 以 ,分 割 


回 


>>> time.strftime ('%y/sm/%d') # 返 | 


'16/06/25"' 

>>> 

说 明 如 下 。 

tm _year: 

tm_mon: 月 。 

tm mday: 日 。 

tm_hour: 时 。 

tm_ min: 分 。 

tm_sec: 秒 。 

tm_wday: 轩 中 的 第 几 天 。 


tm_yday: 一 年 中 的 第 几 天 。 
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tm isdst: 夏令 时 (-1 代表 夏令 时 )。 
1. datetime 模块 


datatime 模块 重新 封装 了 time 模块 ， 提 供 更 多 接口 ， 提 供 的 类 有 date、time、 
datetime、timedelta( 时 间 加 减 )、tzinfo( 时 区 )。 
例如 : 


>>> import datetime 
>>> datetime.date.today() # 返 回 当前 日 期 
datetime.date(2016, 6, 25) 


>>> datetime.date(2016, 4, 10) 
datetime.date(2016, 4, 10) 


回 


>>> datetime.date.today() .ctime() # 返 
1Sat Jun 25 00:00%00 2016" 


当前 日 期 时 间 


>>> datetime.date.today() .timetuple () # 返 回 当前 的 时 间 元 组 格式 
time.struct time (tm_ year=2016, tm mon=6, tm mday=25, tm hour=0, tm min=0, 
tm sec=0, tm wday=5, tm yday=177, tm isdst=-1) 


>>> print (datetime.datetime.now())  # 返 回 当前 正常 的 日 期 时 间 
2016-06-25 13:56:47.281702 


>>> t = datetime.datetime.now() # 取 当前 日 期 时 间 
>>> m = t + datetime.timedelta(5) # 在 七 时 刻 上 增加 5 天 (默认 是 天 ) 
>>> m 


datetime datetime (2016r 66730137 S56 53, 9989397 


>>> m = 七 + datetime.timedelta (weeks=5) 
>>> print (m) 

20126507-30 13:56;53,398939 

>>> 


说 明 如 下 。 


timedelta() 的 参数 还 可 以 是 hours=5， 或 者 是 weeks=5、minutes=5、seconds=5， 但 没有 
FE 和 月 的 时 间 不 定 ， 如 月 份 有 30 天 和 31 天 。 


In 


years 和 months， 因 为 


2. calendar 模块 


此 模块 的 函数 都 是 与 日 历 相 关 的 ， 例 如 打印 某 月 的 字符 月 历 。 星 期 一 是 默认 的 每 周 第 
一 天 ， 星 期 天 是 默认 的 最 后 一 天 。 更 改 设置 需 调 用 calendar.setfirstweekdayO 函 数 。 


(tod. 
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例如 : 


>>> import calendar 
calendar.month (2016,4 


Se 
>>> pri 

Apr 
Mo Tu W 


本 和 站 
3 
上 8 19 2 
25 26 2 


>>> 


print (n 


>>> n= 


>>> pri 


No Tu 


4 5 
hd 
19 .19 
25 26 


18 19 


nt (m) 
Ll AOS 
S THRE 
出 
人 
SERIES 
0 ZTEE2 
T2868 29 


) 


# 返 回 某 


起 


calendar.calendar (2016,w=2,1=1,c=6) 


nt (n) 


January 
We Th Fr 


1 
| 
13 14 15 
20 21 22 
7 20 29 


April 
We Th Fr 
1 
,| 
13 14 15 
20 21 22 
2 828 


July 
We Th Fr 
1 
| 
13 14 15 
20 .21 22 
27 28 29 


October 
We Th Fr 


,i 
12 13 14 
9 20 2 
26 27 28 


2016 


February 
We Th Fr 
3 寺 6 
Oo 
17 18"19 
24 25 26 


Nay 
We Th Fr 


4 5 6 
i112 43 
18 19 20 
25 26 27 


November 
We Th Pe 
-1 
9 10 11 
SEE 
23 24 25 
30 


E 某 月 的 日 历 


# 见 后 注 


Narch 
Tu We Th Fr 
由 三 
1 
5 
22 23 24 25 
29.38 31 


Jumd 
Tu We Th Fr 

A 
SL 
id 15 L017 
21, 22 23 2 
28 29 30 


September 
Tu We Th Fr 
402 
6 
143 1 16 18 
20 21 22 23 
27 28 29530 


December 
Tu We Th Fr 
1 
RAR 
13 14 15 16 
20 .21 a2 
27 28 29 30 


TE 
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n = calendar.calendar(2016,w=2,]=1c=6) 一 一 返回 某 年 的 年 历 ， 三 个 月 一 行 ， 间 隔 


为 距离 c， 每 日 宽度 间隔 为 w 字符 ， 每 行 长 度 为 21xw+18+2xc，1 是 每 星期 行 间距 。 


calendar 模块 还 可 以 处 理 半 年 的 问题 。 判 断 是 否 闽 生 


二 


、 两 个 年 份 之 间 半 年 的 个 数 。 


例如 : 


>>> 
>>> 


import calendar 


print (calendar.isleap (2012)) 


True 


>>> 
. 
> 


Print (calendar.leapdays (2010, 2015)) 


3.7.4 “urllib 模块 


当 我 们 想 下 载 网 上 的 文档 、 数 据 时 ， 也 就 是 编写 大 家 常 说 的 候 


中 


， 常 用 到 urllib 模 


有 具体 示例 如 下 : 


>>> 
> 
>>> 
> 
Sy 
> 


import urllib.request 
ur = urllib.request.urlopen ("http://www.baidu.com") 
content = ur.read() 

mystr = content.decode ("utf8") 

ur.close() 


print (mystr) 


<!DOCTYPE html> 
< SPATUIS OK=— 
<html> 
<head> 


<meta http-equiv="content-type" content="text/html;charset=utf-8"> 
X-UA-Compatible" content="IE=Edge"> 


<meta http-equiv= 
<meta content="always" name="referrer"> 

<meta name="theme-color" content="#2932el"> 

<link rel="shortcut icon" href="/favicon.ico" type="image/x-icon" /> 


<link rel="search" type="application/opensearchdescriptiontxml" 


href="/content-search.xml" title=" 百 度 搜索 " /> 


<link rel="icon" sizes="any" mask 


href="//www.baidu.com/img/baidu.svg"> 


<link rel="dns-prefetch" href="//sl.bdstatic.com"/> 
<link rel="dns-prefetch" href="//tl.baidu.com"/> 
<link rel="dns-prefetch" href="//t2.baidu.com"/> 
<link rel="dns-prefetch" href="//t3.baidu.com"/> 
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<link rel="dns-prefetch" href="//t10.baidu.com"/> 
<link rel="dns-prefetch" href="//tl1l.baidu.com"/> 
<link rel="dns-prefetch" href="//t12.baidu.com"/> 
<link rel="dns-prefetch" href="//bl.bdstatic.com"/> 


<title> 百 度 一 下 ， 你 就 知道 </title> 


2 


由 于 网 页 内 容 太 多 ， 这 里 只 取 了 <title> 标 签 之 前 的 部 分 。 当 然 ， 要 想 获取 更 多 的 其 他 


内 容 


虫 技 


OOP 


象 数 i 


简 


呢 ? 


的 操 


， 那 就 要 使 用 更 多 的 技术 。 这 里 仅仅 把 首页 上 的 内 容 “ 抓 ”了 下 来 。 需 要 注意 : 


urllib.request.urlopen ("http://www.baidu.com") 


这 行 代 码 里 的 参数 是 网 址 ，“http:/” 不 能 少 ， 否 则 会 报错 ! 关于 更 多 的 更 深层 次 的 仆 
术 ， 本 书后 面 还 有 介绍 。 


3.8 类 


面向 对 象 编程 一 一 Object Oriented Programming， 简 称 OOP， 是 一 种 程序 设计 思想 。 
把 对 象 作为 程序 的 基本 单元 ， 一 个 对 象 包含 了 数据 和 操作 数据 的 函数 。 

在 Python 中 ， 所 有 数据 类 型 都 可 以 视 为 对 象 ， 当 然 ， 也 可 以 自 定义 对 象 。 自 定义 的 对 
据 类 型 就 是 面向 对 象 中 的 类 (Class) 的 概念 。 
类 是 所 有 面向 对 象 语言 中 最 难 理解 的 一 个 内 容 。Python 中 的 类 (Class) 是 一 个 抽象 的 概 
比 函 数 还 要 抽象 ， 这 也 是 Python 的 核心 概念 ， 是 一 个 非常 重要 的 知识 点 ， 我 们 可 以 把 
单 地 看 作 是 数据 以 及 由 存 取 、 操 作 这 些 数 据 的 方法 所 组 成 的 一 个 集合 。 
我 们 在 学 习 函 数 (function) 之 后 ， 知 道 了 可 以 重用 代码 ， 那 为 什么 还 类 来 规划 函数 
为 类 有 这 样 一 些 优 点 。 
(1) 类 对 象 是 多 态 的 : 也 就 是 多 种 形态 ， 这 意味 着 我 们 可 以 对 不 同 的 类 对 象 使 用 同样 
作 方 法 ， 而 不 需要 额外 写 代码 。 

(2) 类 的 封装 : 封装 之 后 ， 可 以 直接 调用 类 的 对 象 ， 来 操作 内 部 的 一 些 类 方法 ， 不 需 


DU 


i 


使 用 者 看 到 代码 工作 的 细节 。 
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(3) 类 的 继承 : 类 可 以 从 其 他 类 或 者 元 类 中 继承 它们 的 方法 ， 直 接 使 
定义 类 (class) 的 语法 如 下 : 


class NameClass (object): 


def fname (self, name): 


selt.name' = name 
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第 一 行 语法 是 class 后 面 紧 接 类 的 名 称 ， 最 后 带 上 冒号 。 类 的 名 称 首 字母 最 好 大 写 。 

第 二 行 开始 是 类 的 方法 ， 与 函数 非常 相似 ， 但 是 与 普通 函数 不 同 的 是 ， 它 的 内 部 有 一 
个 self 参数 ， 作 用 是 对 对 象 自身 的 引用 。 

这 里 以 一 个 例子 来 说 明 面 向 过 程 和 面向 对 象 在 程序 流程 上 的 不 同 之 处 。 假 设 要 处 理学 
生 的 成 绩 表 ， 为 了 表示 一 个 学 生 的 成 绩 ， 面 向 过 程 的 程序 可 以 用 一 个 字典 来 表示 : 


stdl = 
std2 = 


El 


{name’s Michael acore': 98} 
tname: Bob', seores 81} 


处 理学 生成 绩 可 以 通过 函数 来 实现 ， 比 如 打印 学 生 的 成 绩 : 

def Print_score(std) : 
print('{0},{1}'.format (std['name'], stdl[l'score'])) 

但 如 果 采 用 面向 对 象 的 程序 设计 思想 ， 我 们 首先 思考 的 不 是 程序 的 执行 流程 ， 而 是 
Student 这 种 数据 类 型 应 该 被 视 为 一 个 对 象 ， 这 个 对 象 拥有 name 和 score 这 两 个 属性 
(Property)。 如 果 要 打印 一 个 学 生 的 成 绩 ， 首 先 必须 创建 出 这 个 学 生 对 应 的 对 象 ， 然 后 ， 给 
对 象 发 一 个 print_score 消息 ， 让 对 象 自行 把 自己 的 数据 打印 出 来 。 

类 定义 如 下 : 


class Student (object): 


der 0 rit oselft, namer SCOre}: 
self.name = name 
Bel SCUrLe TCOrLe 

def print score (self) : 


print('{0}, {1}'.format (self.name,self.score)) 
给 对 象 发 消息 ， 实 际 上 就 是 调用 对 象 对 应 的 关联 函数 ， 又 称 为 对 象 的 方法 (Method)。 
而 向 对 象 的 程序 写 出 来 就 像 这 样 : 


bart = Student ('Bart Simpson', 59) 


lisa = Student ('Lisa Simpson', 87) 
bart.print score() 
lisa.print score() 
面向 对 象 的 设计 思想 是 从 自然 界 中 来 的 ， 因 为 在 自然 界 中 ， 类 (Class) 和 实例 (Instance) 
的 概念 是 很 自然 的 。Class 是 一 种 抽象 概念 ， 比 如 我 们 定义 的 Class Student， 是 指 学 生 
这 个 概念 ， 而 实例 (Instance) 则 是 一 个 个 具体 的 Student， 比 如 Bart Simpson 和 Lisa Simpson 
是 两 个 具体 的 Student。 
所 以 ， 面 向 对 象 的 设计 思想 是 抽象 出 Class， 根 据 Class 创建 Instance。 
类 的 方法 与 普通 的 函数 只 有 一 个 特殊 的 区 别 一 一 它们 必须 有 额外 的 第 一 个 参数 ， 但 是 
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在 调 
象 本 


赞成 
别 ， 
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身 ， 它 就 是 self。 


虽然 可 以 给 这 个 参数 任何 名 称 ， 但 是 强烈 建议 使 用 s 
使 用 的 。 使 用 一 个 标准 的 名 称 有 很 多 优点 ， 例 如 我 介 
如 果 使 用 self 的 话 ， 还 有 些 IDLE( 集 成 开发 环境 ) 也 可 


此 方法 的 时 候 ， 不 用 为 这 个 参数 赋值 ，Python 会 提供 这 个 值 。 这 个 特别 的 变量 指 对 


elf 这 个 名 称 一 一 其 他 名 称 都 是 不 
写 的 程序 代码 其 他 人 可 以 迅速 识 
以 帮助 我 们 。 


Python 如 何 给 self 赋值 以 及 为 何不 需要 给 它 赋值 ? 这 里 举 一 个 例子 。 


假如 有 一 个 MyClass 类 和 它 的 一 个 实例 MyObj。 调 


对 象 的 MyObj.method(argl,arg2) 


过，Python 会 自动 转 为 MyClass.method(MyObj, arg1， 


arg2)， 这 就 是 self 的 原理 了 。 


这 也 意味 着 如 果 有 一 个 不 需要 参数 的 方法 ， 但 是 我 们 仍然 需要 给 这 个 方法 定义 一 个 
self 参数 。 比 较 下 面 类 和 函数 的 区 别 。 


类 : 
#coding = utf-8 
# 创 建 实例 类 Test 


class Test(object) : 
def add(self,avb) : 


打印 输出 atb 的 值 ， 注 意 类 方法 需要 添加 self 


print (a+b) 
def display(self): 


打印 输出 字符 串 ， 注 意 类 方法 需要 添加 self， 尽 管 不 需要 参数 


print('hell, here is a Class test.') 


test = Test() # 创 建 一 个 类 实例 test 
test.add (1,3) # 调 用 方法 
test.display() 


函数 : 


def addTwo (avb) :  # 不 需要 加 self 参数 
print (a+b) 


addTwo (1, 2) 


类 中 声明 add0 方 法 时 ， 若 不 加 self， 则 提示 错误 。 


Python 编程 中 ， 类 的 概念 可 以 比 作 某 种 类 型 集合 的 描述 。 打 个 比方 : 类 就 是 烤 饼 干 的 
模子 ， 而 一 个 个 的 饼干 就 是 一 个 个 实例 ， 或 者 说 类 就 是 一 个 工厂 ， 实 例 就 是 一 个 个 产品 。 


创建 类 时 ， 可 以 定义 一 个 特定 的 方法 ， 名 为 _init 0， 
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只 要 创建 这 个 类 的 一 个 实例 ， 


就 会 运行 这 个 方法 。 可 以 向 _init 0 方法 传递 参数 ， 这 样 ， 创 建 对 象 时 就 可 以 把 属性 设置 


为 我 们 希望 的 值 ， 这 个 _init 0 方法 会 在 创 到 


>>> class peo: 
def _ init (self,name,age, sex): 
self.Name = name 
self.Age = age 
Se1lf, Sex = Sex 
speak (self): 
print ("my name: " + self.Name) 
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实例 化 这 个 类 的 对 象 时 ， 


>>> zhangsan=peo ("zhangsan",24,'man') 
>>> print (zhangsan.Age) 

24 

>>> print (zhangsan.Name) 

zhangsan 

>>> print (zhangsan.Sex) 

Man 

>>> zhangsan.speak() 

my name: zhangsan 
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本 章 小 结 


本 章 主要 学 习 了 过 、for、while 流程 控制 语句 ， 尤 其 使 
要 内 容 。 


(1) 函数 map 和 zip 的 使 用 。 
(2) 函数 和 类 的 编写 格式 。 
(3) try 的 使 用 方法 。 

(4) 包 和 模块 的 导入 方法 。 


练 习 


E 对 象 时 完成 初始 化 。 


for 循环 遍历 的 方法 ， 还 有 以 


(D 在 0~9 之 间 随 机 选择 1 个 整数 ， 操 作 100 次 ， 统 计 共 有 几 种 数字 ， 并 用 字典 的 方 
式 输 出 每 个 数字 的 出 现 次 数 ， 键 是 出 现 的 整数 ， 值 是 出 现 的 次 数 。 
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(2) 将 整数 2016 的 每 个 数字 分 离 出 来 ， 依 次 打印 输出 。 

(3) 已 知 字典 {“name”: “python”, “book”:“python”, “lang”: “english”}， 要 求 将 该 字典 的 
键 和 值 对 换 。( 注 意 ， 字 典 中 有 键 的 值 是 重复 的 ) 

(4) 已 知 一 段 程序 中 ， 用 列表 保存 几 个 用 户 名 ， 例 如 ['xiaoxifeng’, ‘cangcang’”, ‘tom”]， 
要 求 通 过 终端 输入 新 的 用 户 名 ， 判 断 所 输入 的 用 户 名 是 否 为 已 经 设置 好 的 用 户 名 ， 并 且 对 
判断 结果 给 出 友好 的 提示 。 如 果 不 是 ， 多 许 用 户 多 次 尝试 输入 ， 直 到 正确 为 止 。 

(5) 找 一 段 英文 的 文本 ， 统 计 该 文本 中 单词 的 出 现 次 数 。 比 如 “How are you How are 
you.” 的 统计 结果 是 {how”:2, “are”:2, “you”:2}。 

(6) 已 知 字符 串 a=“aAsmr3idd4bgs7Dlsf9eAF”， 要 求 编 写 程序 ， 完 成 如 下 任务 。 

@ 将 字符 串 中 的 数字 取出 ， 并 输出 成 一 个 新 的 字符 串 。 

@@ 统计 字符 串 中 每 个 字母 的 出 现 次 数 (忽略 大 小 写 ， 即 认为 a 与 A 是 同一 个 字母 )， 
并 输出 成 一 个 字典 。 像 {‘a?:3,‘b”:1} 这 样 。 

图 去 除 字 符 囊 多 次 出 现 的 字母 ， 不 区 分 大 小 号。 如 ‘aAsmr3idd4bgs7Dlsf9eAF’ 经 过 
去 除 后 ， 输 出 ‘asmr3id4bg71f9e’。 

(7) 有 一 百 个 瓶子 ， 分 别 编号 为 1~100. 现在 有 人 拿 枪 从 第 一 个 开始 射击 ， 每 枪击 破 

个 ， 跳 过 一 个 ， 一 直到 一 轮 完成 。 接 着 在 剩 下 的 瓶子 里 面 再 次 击破 第 一 个 ， 间 隔 一 个 再 

击破 一 个 。 问 最 后 剩 下 完整 的 瓶子 是 这 一 百 个 瓶子 里 的 第 几 个 ? 

(8) 写 一 段 程序 ， 能 够 实现 如 下 功能 。 

@ 输入 英文 的 姓名 。 

@ ”按照 字典 顺序 将 所 有 姓名 排序 。 

@@ 输入 完毕 ， 将 排序 结果 打印 出 来 。 

(9) 编写 一 个 函数 ， 实 现 摄 氏 温度 和 华氏 温度 之 间 的 换算 ， 换 算 公 式 为 F=9C/5 + 32。 
要 求 输入 单位 是 摄氏 度 的 值 ， 能 够 显示 相应 的 华氏 度 值 ， 反 之 亦 然 。 

(10) 制 做 一 个 加 法 计算 器 ， 要 求 用 户 先 后 输入 两 个 数 ， 能 够 计算 出 结果 ， 并 打印 出 加 

(11) 为 老师 们 编写 一 个 处 理 全 班 考试 成 绩 的 程序 。 要 求 如 下 。 

@ 能 够 依次 录入 班级 同学 的 姓名 和 分 数 。 

加 录入 完毕 ， 则 打印 出 全 班 的 平均 分 、 最 高 分 的 同学 姓名 和 分 数 。 

(12) 编写 工资 额 计算 器 ， 要 求 如 下 。 

@ 确定 每 月 的 基本 工资 。 

加 输入 每 月 的 实际 应 当 工 作 天 数 ， 

@ 输入 当月 的 请 假 天 数 ， 如 果 请 假 天 数 小 于 等 于 2 天 ， 对 工资 无 影响 ; 大 于 2 天 小 
于 等 于 7 和 天， 扣除 当 月 基本 工资 的 10%; 大 于 7 天 小 于 等 于 14 天 ， 扣 除 当月 基本 工资 的 
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50%; 大 于 14 天 ， 扣 除 全 月 工资 。 

图 如 果 当 月 实际 工作 天 数 和 应 工作 天 数 一 样 (不 算 加 班 )， 则 增加 基本 工资 的 20%。 

回 如 果 当 月 有 加 班 ， 则 按照 加 班 的 天 数 和 当月 的 日 工资 (基本 工资 /实际 工作 天 数 ) 计 
算 加 班 费 。 

@ 给 入 最 终 应 得 工资 . 

(13) 有 多 少 个 三 位 数 能 被 17 整除 ? 编写 程序 ， 将 这 些 数值 显示 出 来 。 

(14) 编写 一 个 猜 数 游戏 ， 要 求 如 下 。 

@ 用 户 可 以 输入 无 限 多 次 数字 。 

加 ”如果 猜 中 了 数字 ， 则 要 输出 用 户 猜 测 的 次 数 和 数字 结果 。 

(15) 编写 程序 ， 判 断 一 个 数 是 否 为 素数 。 

(16) 创建 PayCalculator 类 ， 拥 有 pay _rate 属性 ， 以 每 小 时 人 民 币 数量 为 单位 。 该 类 拥 
有 compute_ pay(hours) 方 法 ， 计 算 给 给 定 工作 时 间 的 报酬 ， 并 返回 

(17) 创建 SchoolKid 类 ， 初 始 化 小 孩 的 姓名 、 年 龄 。 也 有 访问 每 个 属性 的 方法 和 修改 
属性 的 方法 。 然 后 创建 ExaggeratingKid 类 ， 继 承 SchoolKid 类 ， 在 子 类 中 和 覆盖 访问 年 龄 的 
方法 ， 并 将 实际 年 龄 加 2。 


.AT 


第 4 和 章 


Python 数据 分 析 实 战 


om 区》 Python 数据 分 析 基 础 


本 章 主 要 介绍 Python 在 数据 处 理 、 数 据 分 析 、 数 据 可 视 化 方面 的 常用 方法 与 技巧 。 


4.1 关于 Pandas 


4.1.1 什么 是 Pandas 


Pandas 是 Python 的 一 个 数据 分 析 包 ， 最 初 由 AQR Capital Management 于 2008 年 4 月 
开发 ， 并 于 2009 年 底 开源 面市 ， 目 前 由 专注 于 Python 数据 包 开 发 的 PyData 开发 团队 继续 
开发 和 维护 ， 属 于 PyData 项 目的 一 部 分 。 

Pandas 最 初 被 作为 金融 数据 分 析 工 具 而 开发 出 来 ， 因 此 ，Pandas 为 时 间 序 列 分 析 提 供 
了 很 好 的 支持 。Pandas 的 名 称 来 自 于 面板 数据 (panel data) 和 Python 数据 分 析 (data 
analysis)。panel data 是 经 济 学 中 关于 多 维 数据 集 的 一 个 术语 ， 在 Pandas 中 ， 也 提供 了 
panel 的 数据 类 型 。 


4.1.2 Pandas 中 的 数据 结构 


Pandas 中 引入 了 两 种 新 的 数据 结构 
在 NumPy 的 基础 之 上 。 

Series: 一 维 数组 系列 ， 也 有 称 序列 的 ， 与 Numpy 中 的 一 维 array 类 似 。 二 者 与 
Python 基本 的 数据 结构 List 也 很 相近 。 

DataFrame: 二 维 的 表格 型 数据 结构 。 很 多 功能 与 R 中 的 data.frame 类 似 。 可 以 将 
DataFrame 理解 为 Series 的 容器 。 以 下 内 容 主要 以 DataFrame 为 主 。 

Panel: 三 维 的 数组 ， 可 以 理解 为 DataFrame 的 容器 。 


Series 和 DataFrame， 这 两 种 数据 结构 都 建立 


4.1.3 ”Pandas 的 安装 方法 


在 安装 Pandas 之 前 ， 无 须 安装 任何 Python 及 其 衍生 产品 ， 直 接 下 载 Anaconda， 官 方 
网 址 为 https://www.continuum.io/downloads， Anaconda 发 展 更 新 较 快 ， 本 书 下 载 的 是 
Python 3.5 版 本 ，32 位 (看 个 人 机 器 ， 有 的 是 64 位 )。 
载 界 面 如 图 4-1 所 示 。 
下 载 后 的 文件 如 下 : 


I Anaconda3-2.4.1-Windows-x86.exe 应 用 程序 306.282 KB 


直接 双击 安装 ， 可 自选 安装 位 置 。 安 装 完成 后 ， 在 开始 菜单 
的 菜单 。 


A. 


[me 


可 以 看 到 如 图 4-2 所 示 


节 4 六 ”Python 数 襄 分析 实 以 人 


| 


Which version should | download and install? 


Because Anaconda includes installers for Python 2.7 and 3.5, either is fine. Using either version, you can 
use Python 3.4 with the conda command. You can create a 3.5 environment with the conda command if 


youve downloaded 2.7 — and vice versa. 


lf you don't have time or disk space for the entire distribution, try Miniconda. which contains only conda 
and Python. Then install just the individual packages You want through the conda command. 


Anaconda for Windows 


PYTHON27 PYTHON35 


do 


Windows 32-bit 
Graphical Installer 


Windows 32-bit 
Graphical Installer 


Behind afirewall? Use thece zipped Windows installers. 


图 4-1 Anaconda 官网 下 载 界面 


A 


内 中 Access 2016 
[J Anaconda3 (32-bit) 
eds Cloud 
Anaconda Prompt 
Re 3 


Microsoft Edge 
Jupyter QTConsole 
吉 要 


le 


北京 


中 国 山 西 省 
原市 胜利 街 
259, 030009 


图 crackod 
E 


拟 返回 


图 4-2 Anaconda 菜单 


安装 完 Anaconda， 就 相当 
安装 包 等。 


安装 了 Python、IPython、 集 成 开发 环境 Spyder 以 及 一 些 
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应 注意 : Windows 7 下 64 位 安装 一 样 进行 ， 但 有 些 机 器 安装 完毕 后 ， 在 开始 菜单 栏 内 


找 不 到 Spyder， 但 可 以 运行 anaconda prompt， 再 键入 Spyder 


Spyder 是 使 用 Python 语言 进行 科学 编程 的 跨 平 台 开 源 集成 玫 
是 模仿 MATLAB 的 “工作 空间 ”， 第 一 次 打开 比较 慢 。Spyder 的 使 


绍 它 的 几 个 基本 功能 。 
1. 代码 提示 


即 可 运行 。 


F 发 环境 ， 它 的 最 大 优点 就 


代码 提示 是 开发 工具 必 备 的 功能 ， 当 需要 Spyder 给 我 们 进行 代码 提示 时 ， 
函数 名 的 前 几 个 字母 ， 再 按 下 Tab 键 ， 即 可 得 到 IDE 的 代码 提示 ， 如 图 4-3 所 示 。 


比较 简单 ， 下 面 介 


只 需要 输入 


人 Spyder (python 3 ms 


er Arearches Gonpe Bom Debug Cpmoles lode end 
CEE ls 
a 


a pes_3) .ercupby(tarser) 


技 下 Tab 键 ， 


,13:01:46) [wsc v.1900 


网 


4-3 Spyder 界面 


2. 变量 浏览 


变量 是 代码 执行 过 程 中 暂 留 在 内 存 中 的 数据 ， 我 们 可 以 通过 Spyder 对 变量 承载 的 数据 


进行 查看 ， 方 使 我 们 对 数据 进行 处 理 。 


如 图 4-4 所 示 ， 变 量 浏览 框 中 包含 了 变量 的 名 称 、 类 型 、 大 小 以 及 基本 预览 ， 双 击 对 


应 变量 名 所 在 的 行 ， 即 可 打开 变量 的 详细 数据 进行 查看 。 
3. 图 形 查看 
绘图 是 我 们 进行 数据 分 析 时 必 备 的 技能 之 一 ， 一 款 好 的 了 


E，IPython 窗 体 中 集成 了 绘图 功能 ， 如 图 4-5 所 示 。 
/A. 


[ 具 ， 必 须 具备 


形 绘制 的 功 


多 Spyder Python 35) 


er 


i 


人 


pn Te 


ia2 


Es 


gota: arrat .deype- UI)) 


0: Ks 1 D's 2 


rr (te, ,0, 8, 


ol 


so) 


TREE Yi wore PTE Ti 


cM 


Spyder (python 3) 届 
Fle Edit Sesrch Souree Run Debug Cancoles 


品 必 国 册 PP BBO Ps 3 


os View Help 


ES 
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rr 


ED 


= 让 
ig ~ plt.figure(l, figsize-(8, 5)) 
wes3D(Fig, cilev=150, ozin-110) 


$53 pea_3 = PACn_conponents=3) 
4 dot pea 3 ~ pa-3.fit_transforn(data) 
加 


30 data_pca ab = pardas:Deteframctdeta_pca 3).groupty (target) 


533 for 上 in data_pcs gb.groups: 
catter( 

dato_pca gb. gct_ group(E)[9], 
data_pra Eb, et-Eroup(e)L1], 


52 ata_pra Bb- get-8roup(8) [2], 
站 ceierst] 

全 arkermsrkersfe]。 

的 rp-pl ten Paired 


2 
Blt scatterC 
doca_Pcs gb. get_groupCE) fe], 
data_pca, eb. set_eroup(E) [1], 
colers[] 
eat 


dota pca 3 flocto¢ 


a ints2 


i 
arraytt 1, 
[EE 
arrav( [2.68429713, 
{72-71539962) 


et | Ve 


| 国 cmsae 1 加 


| Cr ED 


Permssions 网 


了 解 以 上 三 点 功能 ， 基 本 上 就 可 以 使 月 
最 后 ， 需 要 提醒 大 家 的 是 ， 执 行 代码 时 


图 4-5 ”Spyder 绘图 界面 


必须 先 选 中 


Spyder 在 数据 分 析 过 程 中 
ph 代码 ， 然 后 再 按 下 Ctrl+Enter 组 合 


pb 尽情 发 挥 了 。 


键 ， 如 果 没 有 选中 代码 ， 只 是 把 光标 放 在 代码 对 应 的 行 ， 按 下 Ctl+Enter 组 合 键 ， 是 不 能 
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执行 代码 行 的 。 执 行 选 定 的 代码 也 可 以 用 鼠标 单 击 Run cell 按钮 来 完成 ， 如 图 4-6 所 示 。 


人 Spyder (Python 3.5) 
Eile Edit Search Source Bun Debug Consoles Tools View Help 


/ 国 时 国生 入， ps 到 以 聊天 ;了 回 发 划 ; + 


Editor - C:\Wsers\yubs\OneDrive’ 


wor dol oud\jiebaD) py 
(| PD, guanjian py Puntitled22. py 四 P wordcloud py* 回 Pwordpy Djiebsd.r 


天 


3 
4 jieba.load_userdict("userdict.txt") 
5 import jieba.posseg as pseg 

6 jieba.add_word( ' 石 墨 烯 ') 
二 
8 


mort jicbs 


巴萨 赛 中 完成 了 四 连 冠 ， 


个 冠军 都 是 在 未 荡 逆 蒸 获得 的 。 在 91792 赛 和 李 ， 巴 萨 示 相 
| 发 生 在 99/16 赛 季 中 。 示 轮 前 巴萨 领先 皇马 1 分 ， 只 要 商 球 就 将 夺冠 。 末 轮 中 巴萨 4 上 
14 s3 ~“ 在 48/49 赛 季 中 ， 巴 萨 末 轮 2 比 1 售 下 同城 死 艇 西班牙 人 ， 以 2 分 优势 夺冠。52/53 赛 季 ， 巴 萨 未 轮 3 比 8 战胜 毕 
有 

16 mylist = [s1,s2,s3] 

17 word_list = [™ “.join(jieba.cut(sentence)) for sentence in mylist] 

18 new text = ' '.join(word_list) 

19 wordcloud = Wordcloud(font_path=" simhei.ttf', background_color="black").generate(new text) 

28 plt.imshow(wordcloud) 

21 plt.axis("off") 。 #off 可 BWeton， 裕 主 示 雇 瞩 从 
22 plt. show() 

23 


4-6 ” 单 击 Run cell 按钮 执行 选 定 的 代码 


如 果 在 安装 时 遇 到 其 他 问题 ， 可 以 在 如 下 网 址 中 找到 各 种 操作 系统 的 详细 安装 指导 : 


http://www.datarobot.com/blog/getting-up-and-running-with-python/ 


4.1.4 在 Anaconda 中 安装 第 三 方 库 


在 Windows 下 安装 Python 和 很 多 包 ， 对 于 新 手 来 说 ， 总 觉得 是 一 件 很 痛苦 的 事情 。 
所 以 许多 人 喜欢 使 用 Anaconda， 最 方便 的 一 点 是 它 整合 了 大 量 的 依赖 包 。 
如 下 网 址 页 面 列 出 了 它 所 包含 的 全 部 依赖 包 : 


http://docs.continuum.io/anaconda/pkg-docs.html 


由 
en 


其 中 ， 比 如 科学 计算 的 numpy、theano 等 ， 都 应 有 尽 有 。 

尽管 Anaconda 整合 了 很 多 常用 的 包 ， 但 它 也 不 是 万 能 的 ， 有 些 包 就 没有 整合 进来 ， 
比如 怜 虫 scrapy。 

不 过 安装 scrapy 包 比 较 简 单 ， 只 需要 在 “开始 ”菜单 中 选 定 “Windows 系统 ”， 

“命令 提示 符 ”， 在 弹出 的 窗口 命令 行 中 输入 “conda install scrapy”， 就 可 以 安装 了 。 
图 4-7 是 安装 scrapy 包 的 截图 。 


.11 


第 4 章 Python 数据 分 析 实 战 EE 


100% 


图 4-7 ”安装 scrapy 包 的 界面 


4.2 数据 准备 
4.2.1 数据 类 型 


Python 常用 的 三 种 数据 类 型 是 logical、numeric、 character。 

logical 即 布尔 型 ， 只 有 两 种 取 值 ，0 和 1， 或 者 真 假 (true、false)。 

运算 规则 : &( 与 ， 有 一 个 为 假 则 为 假 ): |( 或 ， 有 一 个 为 真 则 为 真 ); not( 非 ， 取 反 )， 具 
体 如 表 4-1 所 示 。 


表 4-1 布尔 运算 规则 


运算 符 | 注释 运算 规则 
& 与 两 个 逻辑 型 数据 中 ， 其 中 一 个 数据 为 假 ， 则 结果 为 假 
两 个 逻辑 型 数据 中 ， 其 中 一 个 数据 为 真 ， 则 结果 为 真 
not 非 取 相 反 值 ， 非 真 的 逻辑 型 数据 为 假 ， 非 假 的 逻辑 型 数据 为 真 


numeric 即 数 值 型 。 

运算 规则 : +、-、*、/ 。 

character 即 字符 型 ， 使 用 单 引 号 (或 者 双 引 号 (2 包围 起 来 。 

Python 数据 类 型 变量 的 命名 规则 如 下 。 

(1) 变量 名 可 以 由 a~z、A~Z、 数 字 、 下 划 线 组 成 ， 首 字母 不 能 是 数字 和 下 划 线 。 
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(2) 大 小 写 敏感 。 
(3) 变量 名 不 能 为 Python 中 的 保留 字 。 如 不 能 是 and、continue、lambda、or 等 。 


4.2.2 ”数据 结构 


(系列 ) 和 Dataframe( 数 据 框 )。 


数据 结构 是 指 相互 之 间 存 在 的 一 种 或 多 种 特定 关系 的 数据 类 型 的 集合 ， 主 要 有 Series 


1. Series 


Series 即 系列 (也 称 序列 )， 用 于 存储 一 行 或 一 列 的 数据 ， 以 及 与 之 相关 的 索引 的 集合 。 


使 用 


方法 如 下 : 
Series ([ 数 据 1， 数 据 2，. ..]，inqex=[ 索 引 1， 索 引 2，...]) 
例如 : 


In [1] :from pandas import Series 
X = Series(['a'v2，' 螃 蟹 '] ,index=[1,2,3]) 
Tn [ET]:X 
Out [2]: 
i a 
2 人 
3 ”螃蟹 
dtype: object 


Tr tST: 人 ES] 
out [3] : "螃蟹 ' 


一 个 系列 允许 存放 多 种 数据 类 型 ， 索 引 也 可 以 省 略 ; 可 以 通过 位 置 或 者 索引 访问 数 
如 X[3]， 返 回 ' 螃 角 "。 

Series 的 索引 index 可 以 省 略 ， 默 认 从 0 开始 ， 也 可 以 指定 索引 。 

在 Spyder 中 写 入 代码 : 


from pandas import Series 
A=Series ([1,2,3]) # 定 义 系列 的 时 候 ， 数 据 类 型 不 限 
print (A) 


# 输 出 如 下 

0 1 # 第 一 列 的 0 到 2 就 是 数据 的 索引 ， 也 就 是 位 置 ， 计 数 从 0 开始 
We 

2 3 
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dtype: int64 


from pandas import Series 


A=Series ([1,2,3],index=[1,2,3]) # 可 自 定义 索引 ， 如 : 123; ABCD 等 


print (A) 

1 灿 

2 

< 

dtype: int64 #dtype 指向 数据 类 型 ，ini64 是 指 64 位 整数 


from pandas import Series 
A=Seriesl[llr273].index=[t "Ar By CI ]) 
Print (A) 


dtype: int64 
注意 容易 犯 的 错误 : 
from pandas import Series 


A=Series ([1,2,3],index=[A,B,C]) 
print (A) 


Traceback (most recent call Last)}: 


File "<ipython-input-10-d5dd51933cbd>"y line 3 in <module> 
A=Series ([1,2,3],index=[A,B,C]) 


NameError: name 'B' is not defined 


为 这 里 A、B、C 都 是 字符 串 ， 需 要 使 用 引号 。 
访问 系列 值 时 ， 需 要 通过 索引 值 来 访问 ， 系 列 的 索引 index 和 系列 值 是 一 一 对 应 的 关 
系 ， 如 表 4-2 所 示 。 


表 4-2 系 类 索引 与 系列 值 对 应 


系列 索引 系列 值 
0 14 
1 26 
他 31 
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例如 : 


from pandas import Series 
A=Series ([14,26,31]) 
print (A) 


print (A[1]) # 系 列 的 位 置 从 0 开始 的 ， 第 一 个 数 从 0 开始 计数 


Print (A[5]) # 超 出 index 的 总 长 度 会 报错 


0 14 

中 26 

- 汪汪 
dtype: int64 
26 


KeyError: 5 # print (A[5] ) 时 因为 索引 越界 出 错 


from pandas import Series 


A=Series ([14,26,31],index=['first','second','third']) 


print (A) 


print (A['second']) # 如 果 设 置 了 index 参数 ， 也 可 通过 参数 来 访问 系列 值 


first 14 
second 26 
third 3 
dtype: int64 
26 


执行 下 面 的 代码 ， 看 看 运行 的 结果 : 


from Pandas import Series 


# 可 以 混合 定义 一 个 序列 

x = Series(['a', True, 1], index=['first', 
# 访 问 

[1] 


# 根 据 index 访问 


x['second'] 


# 不 能 越界 访问 
受 [31 


# 不 能 追加 单个 元 素 ， 但 可 以 追加 系列 
x.append('2') 


'second', 


"hira”]) 


# 追 加 一 个 系列 
n = Series(['2' 


x.append (n) 


让 
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# 需 要 使 用 一 个 变量 来 承载 变化 ， 即 x.append (n) 返回 的 是 一 个 新 序列 


x = x.append (n) 


# 判 断 值 是 否 存在 ， 数 字 和 导 辑 型 (True/False) 是 不 需要 加 引号 的 


2 in x.values 


'2' in x.values 


# 切 片 
x[1:3] 


# 定 位 获取 ， 这 个 方法 经 常用 于 随机 抽样 


x[[0, 2, 1]] 


# 根 据 index 删除 
x.drop (0) 
x roOp( FIrst") 


# 根 据 位 置 删除 ， 返 


回 


x.drop (x.index[ 


# 根 据 值 删除 ， 显 示 值 不 等 于 2 的 系列 ， 即 删除 2， 返 


x[2!=x.values] 


# 通 过 值 访问 系列 号 


x.index[x.values=='a'] 


3]) 


index 


新 的 序列 


日 


新 序列 


# 修 改 series 中 的 index: 可 以 通过 赋值 更 改 ， 也 可 以 通过 reindex () 方 法 


x.index=[0,1,2, 


3,4] 


# 可 将 字典 转化 为 Series 


SH eries (lt a Lb rr oa) 


Series 的 sort_index(ascending=True) 方 法 可 以 对 index 进行 排序 操作 ，ascending 参数 
控制 升序 或 降序 ， 默 认为 升序 。 也 可 使 用 reindex0 方 法 


在 Series 上 调 
引入 缺失 数据 值 : 


reindex 


本 


新 排序 。 


三 排 数 据 ， 使 得 它 符合 新 的 索引 ， 如 果 索 引 的 值 不 存在 ， 就 
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#reindex 重 排序 

obj = Series([4.5, 7.2, -5.3, 3.6], index=['d', ’'b', 
obj 

Out [25]: 

d 4 

b V2 

a oS 

Sd 

dtype: float64 


obj2 = obj:reoinder (lay VD ole Madly "en]) 


obj2 

Out [26]: 
a S53 
b WA 
C 3 
d 4.5 
起 NaN 


dtype: float64 


db:reindextl a rr br er du "el? fill verue=0) 
Out [27]: 


a 
b 
© 
a 
e 


口 mamNmw 


dtype: float64 


ry 


Series 对 象 本 质 上 是 一 个 NumPy 的 数组 ， 因 此 NumPy 的 数组 处 理 函 数 可 以 直接 对 


Series 进行 处 理 。 但 是 Series 除了 可 以 使 用 位 置 作为 下 标 存 取 元 素 外 ， 还 可 以 使 用 标签 存 
取 元 素 ， 这 一 点 与 字典 相似 。 每 个 Series 对 象 实际 上 都 由 两 个 数组 组 成 。 
@ index: 它 是 从 NumPy 数组 继承 的 index 对 象 ， 保 存 标签 信息 。 


@ values: 保存 值 的 NumPy 数组 。 

注意 如 下 几 点 。 

(1) Series 是 一 种 类 似 于 一 维 数组 (数组 : ndarray) 的 对 象 。 
(2) 它 的 数据 类 型 没有 限制 (各 种 NumPy 数据 类 型 )。 


(3) 它 有 索引 ， 把 索引 当 作 数据 的 标签 Ckey) 看 待 ， 类 似 于 字典 


(只 是 类 似 ， 实 质 上 是 


数组 )。 


112 人 


(4) Series 同时 具有 数组 和 字典 的 功能 ， 因 此 它 也 支持 一 些 字 和 


的 方法 。 
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2. DataFrame 


DataFrame 是 用 于 存储 多 行 和 多 列 的 数据 集合 ， 是 series 的 容器 。 使 用 方式 如 下 : 


Dataframe (columnsMap) 


例如 : 


df=DataFrame( 


{'age':Series([21,22,23]),'name':Series(['Yubg', 'John', 'Jim’'])}, 
index=[0,1,2]) 


其 中 的 数据 行列 位 置 如 图 4-8 所 示 。 


0 
地 
一 一 一 3 1 
2 [本 2 是 im -一 一 总 共 三 行 
1 这 是 对 三 行 
避 咎 个 位 轩 
总 共 两 列 这 个 位 置 df.at[2,'name'] 
这 是 第 一 列 


图 4-8 DataFrame 数据 行列 位 置 示例 
又 如 : 


from pandas import Series 
from pandas import DataFrame 


df=DataFrame ({'age':Series([26,29,24]),'name':Series(['Ken','Jerry', ‘Ben 
注水 
print (df) 


age name 
1 Ken 
1 29 Jerry 
2 24 Ben 


还 注意 : ”DataFrame 中 单词 的 写法 是 首 字母 大 写 。 索 引 不 指定 时 也 可 以 省 略 。 使 用 数 
据 框 时 ， 要 先 从 pandas 中 导入 DataFrame， 数 据 访问 方式 如 表 4-3 所 示 。 
表 4-3 ”数据 框 的 访问 方式 


访问 位 置 备注 
访问 列 变量 名 [ 列 名 ] 访问 对 应 的 列 。 如 df['name’] 
访问 行 变量 名 [n:m] 访问 n 行 到 m-l 行 的 数据 。 如 df[2:3] 
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续 表 


访问 位 置 方 法 备 注 


访问 块 ( 行 和 列 ) 变量 名 .iloc[n1:n2, ml:m2] 


访问 nl 到 (n2-1) 行 ，ml 到 (m2-1) 列 的 数据 。 
如 dfiloc[0:3, 0:2] 


访问 位 置 变量 名 .at[ 行 名 , 列 名 ] 


访问 ( 行 名 , 列 名 ) 位 置 的 数据 。 如 dfat[1, ‘name’] 


具体 示例 如 下 : 


R=df['age'] # 获 取 age 的 列 值 
print (A) 

0 26 

3 

2 24 

Name: age, dtype: int64 


B=df [1:2] # 获 取 序号 是 第 一 行 的 值 (其 实 是 第 二 行 ， 从 0 开始 的 ) 
print (B) 

age name 
29 Jerry 


C=df.iloc[0:2,0:2] # 获 取 第 0 行 到 2 行 (不 含 ) 与 第 0 列 到 2 列 (不 含 ) 的 块 
print (C) 
age name 
0 26 Ken 
Ff 29 Jerry 


D=df.at[0,'name']  # 获 取 第 0 行 与 name 列 的 交叉 值 
print (D) 
Ken 


执行 下 面 的 代码 并 查看 运行 结果 : 
from pandas import DataFrame 
df1l = DataFrame ({ 


age Bll 20r 23]% 
“Mame MEN Tob TLMI I 


df2 = DataFrame (data={ 


"det [217 227 23]7 
'name': ['KEN', ‘'John', "JIMI'] 
}, index=['first', 'second', 'third']); 
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# 按 列 访问 
af age 可 
# 按 行 访问 
dfill:21 


# 按 行列 号 访问 
df1.iloc[0:1, 0:1] 


# 按 行 索引 名 、 列 名 访问 


df2attrfirst nr amer] 


# 修 改 列 名 


dfl.columns=['age2', ‘'name2'] 


# 修 改行 索引 
dfl.index = range(1,4) 


# 访 问 指定 列 的 值 
dfl[dfl.columns[0:2]] # 等 价 于 column_names=df1.columns,dfl [column_names[0:2]] 


# 根 据 行 索引 删除 
dfl.drop (1，axis=0) # axis=0 是 表示 行 轴 ， 也 可 以 省 略 


# 根 据 列 名 进行 删除 
dfl.drop('age2'，axis=1) +# axis=l 表示 列 轴 ， 不 可 省 略 


# 第 二 种 删除 列 的 方法 
del dfl[l’age2'] 


# 增 加 列 
dfl['newColumn'] = [2, 4, 6€6] 


# 增 加 行 。 这 种 方法 效率 比较 低 


df2.1o0oc[len(df2)] = [24, "KENKEN"] 


增加 行 的 办 法 可 以 通过 合并 两 个 DataFrame 来 解决 。 例 如 : 
df = DataFrame ([[1, 2], [3, 4]], columns=list('AB')) 
Out[46]: 

AB 


0 
:A 


.2 入 ， 
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df2 = DataFrame([[5, 6], [7, 8]], columns=list('AB')) 
df2 
Out[47]: 
BW 
0 5 6 
Ee 


# 方 法 一 ， 合 并 两 个 数据 框 ， 并 生成 一 个 新 的 数据 框 ， 简 单 的 “又 加 ”， 不 修改 index 
df.append (9f2) # 仅 把 af 和 df2 “ 营 ” 起 来 了 ， 没 有 修改 合并 后 af2 部 分 的 index 
Out[48]: 

pe 


POPo 
~ WwW PP 
Do ao 心 N 


# 方 法 二 ， 合 并 生成 一 个 新 的 数据 框 ， 并 修改 index 
df.append (af2，ignore_index=True) # 修 改 index， 对 df2 部 分 重新 索引 了 
Out[49]: 

A 驴 


wm PP 口 
~ w PP 
o oo AN 


4.2.3 ”数据 导入 

数据 存在 的 形式 多 样 ， 有 文件 (CSV、Excel、TXT) 和 数据 库 (MySQL、Access、SQL 
Server) 等 形式 。 

(1) 导入 TXT 文件 : 

read table(file,names=[ 列 名 1, 列 名 2,...],sep="",...) 

file 为 文件 路 径 与 文件 名 。 


names 为 列 名 ， 默 认为 文件 中 的 第 一 行 作 为 列 名 。 
sep 为 分 隔 符 ， 默 认为 空 ， 表 示 默 认 导入 为 一 列 。 
【 例 4-1】 读 取 ( 导 入 )TXT 文件 : 


from pandas import read table 

df = read table('E://rzl.txt', 

names=['YHM', 'DLSJ', 'TCSJ', 'YWXT', 'IP','REMARK'],sep=",") 
print (df) 
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YHM DLSJ TCSJ YWXT :5 


0 "s1402048" 2014-11-04 08:44:46 NaN 1.225790e+17 1 2 有 05 .O55 

1 S1411023 2014-11-04 08:45:06 NaN 1.225790e+17 183.184.226.205 

2 S1402048 2014-11-04 08:46:39 NaN NaN 221.205.98.55 

3 20031509 2014-11-04 08:47:41 NaN NaN 222.31.51.200 

4 S1405010 2014-11-04 08:49:03 NaN 1.225790e+17 120.207.64.3 
REMARK 

0 单 点 登录 研究 生 系统 成 功 ! 

1 单 点 登录 研究 生 系统 成 功 ! 

2 户 名 或 密码 错误 。 

3 ”统一 身份 用 户 登录 成 功 ! 

4 单 点 登录 研究 生 系 统 成 功 ! 


注意 : TXT 文本 文件 要 保存 成 UTF-8 格式 才 会 不 报错 。 但 此 例 还 有 另外 一 个 问 
题 ， 即 第 一 个 数据 带 有 双 引 号 ， 该 怎么 处 理 ? 


(2) 导入 CSV 文件 : 


read_csv (file,names=[ 列 名 1, 列 名 2,...],sep="",...) 


file 为 文件 路 径 与 文件 名 。 

names 为 列 名 ， 默 认为 文件 中 的 第 一 行 作为 列 名 。 

sep 为 分 隔 符 ， 默 认为 室 ， 表 示 默 认 导 入 为 一 列 。 
【 例 4-2】 读 取 ( 导 入 )CSYV 文件 : 


from Pandas import read csv 

df = read csv('E://rz20.csv', 

names=["'YHM'; 'DLSJ'; 'TCSJ', 'YWXT', 'IP','REMARK'] ,sep=";") 
print (df) 


YHM DLSJ TCSJ YWXT IP REMARK 


0 id band num price NaN NaN 
水 1 130 联通 123 159 NaN NaN 
2 2 TL 2 本 753 NaN 
3 - 132 2 456 NaN NaN 
4 4 133 电 信 126 852 NaN NaN 


使 用 read_table 命令 也 能 执行 ， 结 果 与 read_csv 一 致 : 


from pandas import read table 
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df = 


read table('E://rz20.csv', 


names= ("YM "DLSg, TO”, YN "Tp", "REMARK"] ,Sep=",™) 
print (df) 


YHM DLSJ TCSJ YWXT IP REMARK 


0 id band num price NaN NaN 

£ 1 130 联 通 123 159 NaN NaN 
2 T3114 753 NaN NaN 

3 人 7 456 NaN NaN 

4 4 133 电 信 126 852 NaN NaN 


(3) 导入 excel 文件 : 


read excel(file, sheetname,header=0) 


file 为 文件 路 径 与 文件 名 。 
sheetname 为 sheet 的 名 称 ， 例 如 sheet1l 。 
header 为 列 名 ， 默 认为 0， 文件 的 第 一 行 作为 列 名 。 只 接受 布尔 型 0 和 1。 


【 例 4-3】 读 取 ( 导 入 )Excel 文件 : 


from pandas import read excel 
df = read excel('E://rzl1.xlsx',sheetname='Sheet2',header=1) 
print (df) 


S1411023 2014-11-04 08:45:06 0122579031373493731 183.184.226.205 \\ 


0 S1402048 2014-11-04 08:46:39 NaN 2 二 25 9855 

1 20031509 2014-11-04 08:47;41 NaN 2227531 51.200 

2 S1405010 2014-11-04 08:49:03 1.225790e+17 A A ct 

3 20031509 2014-11-04 08:47:41 NaN 222 340517208 

4 S1405010 2014-11-04 08:49:03 1.225790e+17 T205207 843 
单 点 登录 研究 生 系统 成 功 ! 

0 户 名 或 密码 错误 。 

1 ”统一 身份 用 户 登 录 成 功 ! 

2 单 点 登录 研究 生 系统 成 功 ! 

3 ”统一 身份 用 户 登录 成 功 ! 

4 单 点 登录 研究 生 系统 成 功 ! 

还 注意 : ”header 取 0 和 1 有 差别 ， 取 0 表示 第 一 行 作为 表 头 显示 ， 取 1 表示 第 一 行 丢 
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弃 ， 不 作为 表 头 显示 。 有 时 可 以 跳 过 首 行 或 者 读 取 多 个 表 ， 例 如 


df = pd.read excel (filefullpath, sheetname=[0,2],skiprows=[0]) 
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sheetname 可 以 指定 读 取 几 个 sheet， 数 目 从 0 开始 ， 如 果 sheetname=[0,2]， 
则 代表 读 取 第 0 页 和 第 2 页 的 sheet; skiprows=[0] 代 表 读 取 时 跳 过 第 0 行 。 


(4) 导入 MySQL 库 : 


read_sql (sql, con- 数 据 库 ) 


sql 为 从 数据 库 中 查 


con 为 数据 库 的 连接 对 象 ， 需 要 在 程序 中 


示例 代码 如 下 : 
import pandas 
import MySoLdb 


询 数据 的 SQL 语句 。 


P 选 择 创 如 


[I 


connection = MySoOLadb .connect( 

host Ss VI27.00.1 7 # 本 机 的 访问 地 址 

user = 'root', # 登 录 名 

passwd = "7 # 访 问 密码 ， 此 处 无 密码 

GD CSSe # 访 问 的 数据 库 

port = 5029， # 访 问 端口 

charset = 'utf8') # 编 码 格式 
data = pandas.read sql("select * from t useri",con = connection) 

# t_user 是 test 库 中 的 表 

connection.close() # 调 用 完 要 关闭 数据 库 


4.2.4 数据 导出 


CSV 文件 : 


(1) 导 t 


to csvl( 


file_path 
sep 为 分 


file path,sep= ", 


为 文件 路 径 。 


", index=TRUE, header=TRUE) 


index 代表 是 否 导出 行 序号 ， 默 认 是 TRUE， 导 出 行 序号 。 


header 代表 是 否 导 H 


8 列 名 ， 默 认 是 TRUE， 导出 列 名 。 
【 例 4-4】 导 出 CSYV 文件 : 


from pandas import DataFrame 


from pandas import Series 


df = DataFrame( 


{'age':Series([26,85,64]),'name':Series(['Ben','John','Jerry'])}) 


print (df) 


age name 
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0 26 
1 
2 64 Jerry 


Ben 
John 


df.to Cav("er NO0l Cay) 
df.to csv('e:\\02.csv',index=False) 


结果 如 图 4-9 所 示 。 


A B 已 | D 
| age name 
| 0| 26 Ben 
3 1 85 John 
4 2 64 Jerry 
5 
Oi.csv 

图 


(2) 导出 Excel 文件 : 


# 默 认 带 上 index 
# 无 index 


- 0Q2.csv 


4-9 ”导出 数据 01.csv 和 02.csv 的 结果 


to excel (file path, index=TRUE,header=TRUE) 


file_path 为 文件 路 径 。 
index 表示 是 否 导出 行 序号 ， 


默认 是 TRUE， 


导出 行 序号 。 


header 表示 是 否 导出 列 名 ， 默 认 是 TRUE， 导 出 列 名 。 


【 例 4-5】 导 出 Excel 文件 : 


from 


pandas import DataFrame 
from 
df = 


pandas import Series 
DataFrame ( 


{'age':Series([26,85,64]), 


namne":Series([L "Benr John"r Jerry’])}) 


df.to excel('e:\\01.xlsx"') 


df.to excel ('e:\\02.xlsx',index=False) 


结果 如 图 4-10 所 示 。 
dl Wl 入 D 
1 age | nane 
2 0 26 Ben 
3 85 John 
4 学 64 Jerry 
5 
a| 101.X|SX 
3 注意 : 
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里 ， 就 要 多 加 encoding = “UTF8’” 


图 4-10 “导出 数据 01.xlsx 和 02.xlsx 结果 图 
凡是 在 Python 2.7 中 要 写 中 文字 符 串 的 地 方 ， 都 要 在 前 面 加 u。 在 to_csv 


# 默 认 带 上 index 
# 无 index 


4 B Cc 
ge | nane 

26 Ben 

85 John 

64 Jerry 


02.xlsx 


a 
2 
3 
全 | 
5 | 
6 


这 个 参数 ; 若 要 用 Excel 直接 打开 ， 那 么 
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encoding =“GBK”， 或 者 encoding =“GB2312”， 因 Excel 默认 的 是 这 种 编 
码 。 在 Python 3.4 后 就 不 需要 了 。 


(3) 导出 到 MySQL 库 : 

to_sql (tableName，con= 数 据 库 链接 ) 

tableName 为 数据 库 中 的 表 名 。 

con 表示 数据 库 的 连接 对 象 ， 需 要 在 程序 中 选择 创建 。 
示例 代码 如 下 : 


# -*- coding: utf-8 —*-— 
import MySoLdb 
from pandas import DataFrame 


connection = MySQLdb.connect ( 
QOS T2700 
port=5029, 
user='root', 
passwd="'', 
db='test', 
charset='utf8') 


connection.autocommit (True) # 自 动 递交 数据 连接 
df = DataFrame ({ 
“age [L307 227 43 
'name': ['Jhon', 'jerry', 'Ben'] 
I 
df.to_ sql("table 1", connection, flavor='mysql', if exists='append') 
# 导 入 MySQL 数据 库 test 库 下 的 table_1 表 中 ， 以 append 追加 的 模式 


connection.close() 


4.3 数据 处 理 
4.3.1 数据 清洗 


数据 分 析 的 第 一 步 是 提高 数据 质量 。 数 据 清洗 就 是 处 理 缺 失 数据 以 及 清除 无 意义 的 信 
息 。 这 是 数据 价值 链 中 最 关键 的 步骤。 垃圾 数据 ， 即 使 是 通过 最 好 的 分 析 ， 也 将 产生 错误 
的 结果 ， 并 误导 业务 本 身 。 因 此 在 数据 分 析 过 程 中 ， 数 据 清洗 占据 了 很 大 的 工作 量 。 

1. 重复 值 的 处 理 


drop_duplicates0: 把 数据 结构 中 行 相同 的 数据 去 除 (保留 其 中 的 一 行 )。 
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【 例 4-6】 数 据 去 


from pandas import DataFrame 


from pandas import read excel 


df = read excel('e://rz2.xlsx') 
df 
Out [1]: 
YHM TCSJ YWXT 人 
0 S1402048 18922254812 1.225790e+17 22 工 2035958255 
和 . STIALLO23 13522255003 1352257908+17 18301984.22652205 
S1402048 13422259938 NaN 221.205 98.55 
3 T20031509 "19822256753. NaN 222.3h51.200 
4 S1405010 18922253721 ,225790e+17 120.207.64.3 
5 20140007 NaN 1.225790e+17 re a 
6 S1404095 13822254373 1.225790e+17 Pr We 4) 
局 S1402048 13322252452 1.225790e+17 2215205.98.55 
8 S1405011 18922257681 1.225790e+17 183.184.230.38 
9 S1402048 13322252452 1.225790e+17 2215205. 98555 
10 "SIA4DSO0ll T8922257681L L2257908+17 A230.38 
newDF=df .drop duplicates() 
newDF 
GO 才 计 2 下 > 
YHM TCSJ YWXT 于 
0 S1402048 18922254812 1.225790et17 2Z21.205598555 
J SIall023 ID22250003 L225790G+17 183.184.226.205 
2 S1402048 13422259938 NaN 01 2208955 
3 200315D% T89222557153 NaN 22253L45 人 T2200 
4 S1405010 18922253721 1.225790e+17 120.207.64.3 
5 20140007 NaN: 1 2257908t19 2225310515200 
6 S1404095 13822254373 1.225790e+17 222.31:59220 
7 S1402048 13322252452 1.225790e+17 2215205598.55 
8 S1405011 18922257681 1.225790e+17 183.184.230.38 
在 上 面 的 df 中 ， 第 7 行 和 第 9 行 数据 相同 ， 第 8 和 第 10 行 数据 相同 ， 去 
7、9 和 8、10 各 保留 一 行 数据 。 

2. 缺失 值 处 理 

缺失 数据 的 处 理 方式 有 数据 补 齐 、 删 除 对 应 行 、 不 处 理 等 方法 。 
(1) dropna0: 去 除数 据 结构 中 值 为 空 的 数据 行 。 
【 例 4-7】 删 除数 据 为 空 所 对 应 的 行 : 
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from pandas import DataFrame 
from pandas import read excel 
df = read excel('e://rz2.xlsx') 


newDF=df .dropna () 


newDF 
Ould 

YHM TCSJ YWXT Lp 
0 S1402048 18922254812 1.225790e+17 221"205.98.55 
T1411023 13522255003 9 J:2257908+t17 183.184.226.205 
4 S1405040 18922253721 L7225790et17 120.207.64.3 
6 S1404095 13822254373 1.225790e+17 L9220 
六 S1402048 13322252452 1.225790e+17 pol 0 0S 
8 S1405011 18922257681 1.225790e+17 183.184.230.38 
学 SiI4020458 13322252452 1:225790e+17 221.205.98.55 
10 S1405011 18922257681 1.225790e+17 LA L184 230.38 


例 中 的 2、3、5 行 有 空 值 NaN， 已 经 被 删除 。 

(2) dffillna0: 用 其 他 数值 蔡 代 NaN。 

有 些 时 候 ， 空 数据 直接 删除 会 影响 分 析 的 结果 ， 可 以 对 数据 进行 填补 。 
【 例 4-8】 使 用 数值 或 者 任意 字符 替代 缺失 值 : 


from Pandas import DataFrame 


from pandas import read excel 
df = read excel('e://rz2.xlsx') 
GF ti Loa 


Out[4]: 
YHM TCST YWXT IP DLSJ 
0 S1402048 1.89223e+10 1.22579e+17 221.205.98.55 2014-11-04 08:44:46 
十 S1411023 1.35223e+10 1.22579e+17 183.184.226.205 2014-11-04 08:45:06 
2 S1402048 1.34223e+10 多 221.205.98.55 2014-11-04 08:46:39 
3 20031509 1.88223e+10 222.31.51.200 2014-11-04 
4 S1405010 1.89223e+10 1.22579e+17 120.207.64.3 2014-11-04 08:49:03 
5 20140007 re Ee 222.31.51.200 2014-11-04 
6 S1404095” .382236+10 10229798+17 222 1 22 2014-11-04 08:50:02 
7 s1402048 1.33223e+10 1.22579e+17 221.205.98.55 2014-11-04 08:49:18 
S1405011 1.89223e+10 1.22579e+17 183.184.230.38 2014-11-04 08:14:55 
a S1402048 1.33223e+10 1.22579e+17 221.205.98.55 2014-11-04 08:49:18 
L0 S1405011 T892238+10 1.2257198+17 183.184.230.38 2014-11-04 08:14;55 


如 2、3、5 行 有 空 ， 用 ?替代 了 缺失 值 。 
(3) df.fillna(method=“pad”): 用 前 一 个 数据 值 蔡 代 NaN。 
【 例 4-9】 用 前 一 个 数据 值 蔡 代 缺失 值 : 
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from pandas import DataFrame 


from pandas import read excel 


df = read excel('e://rz2.xlsx') 
df.fillna (method='pad') 
Out[5]: 

YHM TCST YWXT IP DLSJ 
0 Ss1402048 18922254812 1.225790e+17 221.205.98.55 2014-11-04 08:44:46 
1 S1411023 13522255003 1.225790e+17 183.184.226.205 2014-11-04 08:45:06 
2 Ss1402048 13422259938 1.225790e+17 221.205.98.55 2014-11-04 08:46:39 
3 20031509 18822256753 1.225790e+17 222.31.51.200 2014-11-04 08:47:41 
4 S1405010 18922253721 1.225790e+17 120.207.64.3 2014-11-04 08:49:03 
5 20140007 18922253721 1.225790e+17 222.31.51.200 2014-11-04 08:50:06 
6 S1404095 13822254373 1.225790e+17 222.31.59.220 2014-11-04 08:50:02 
7 Ss1402048 13322252452 1.225790e+17 221.205.98.55 2014-11-04 08:49:18 
8 S1405011 18922257681 1.225790e+17 183.184.230.38 2014-11-04 08:14:55 
9 S1402048 13322252452 1.225790e+17 22 0 0 2014-11-04 08:49:18 
10 S1405011 18922257681 1.225790e+17 183.184.230.38 2014-11-04 08:14:55 


(4) df.fillna(method=“bfill*): 用 后 一 个 数据 值 蔡 代 NaN。 

与 pad 相反 ，bfill 表示 用 后 一 个 数据 代替 NaN。 可 以 用 limit 限制 每 列 可 以 蔡 代 NaN 
的 数目 。 

【 例 4-10】 用 后 一 个 数据 值 蔡 代 NaN: 


from pandas import DataFrame 


from pandas import read excel 


df = read xcel( er/ rz2. xLSr" 大 
df.fillna (method="'bfil1l1') 
out [6] : 
YHM TCSJ YWXT IP DLSJ 
0 S1402048 18922254812 1.225790e+17 221.205.98.55 2014-11-04 08:44:46 


1 Ss1411023 13522255003 1.225790e+17 183.184.226.205 2014-11-04 08:45:06 


去 S1402048 13422259938 1.225790e+17 L216.205.38.55 2014-11-04 08:46:39 
3 20031509 18822256753 1.225790e+17 2259ls5L:200 2014-11-04 08:47:41 
4 S1405010 18922253721 1.2257908+17 120.207.64.3 2014-11-04 08:49:03 
5 20140007 13822254373 1.225790e+17 222.31.51.200 2014-11-04 08:50:06 
6 S1404095 13822254373 1.225790e+17 >Z22 .23152592220 2014-11-04 08:50:02 
7 S1402048 13322252452 1.225790e+17 2215205598255 2014-11-04 08:49:18 
8 S1405011 18922257681 1.225790e+17 183.184.230.38 2014-11-04 08:14;55 
9 S1402048 13322252452 1.225790e+17 221.205.98:55 2014-11-04 08:49:18 


10 S1405011 18922257681 1.225790e+17 183.184.230.38 2014-11-04 08:14:55 


(5) dffllna(dfmean0): 用 平均 数 或 者 其 他 描述 性 统计 量 来 代替 NaN。 
【 例 4-11】 使 用 均值 来 填补 数据 : 


.fs6\， 
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from pandas import DataFrame 
from pandas import read excel 


df = read excel('e://rz2 0.xl1sx") 


df 
Ot 
No math physical Chinese 

0 出 76 85 78 

i 2 85 56 NaN 

2 3 76 25 85 

3 4 NaN 75 58 

4 5 87 区 68 


qf.fillna(daf.mean()) 


out [8] : 

No math Physical Chinese 
0 下 76 3 78.00 
i 2 85 56 T2225 
2 3 8 95: 85.00 
2 81 V3 58.00 
4 S 87 Sa 68.00 


(6) dffillna(dfmeanO[math: physical]): 选择 列 进行 缺失 值 的 处 理 。 
【 例 4-12】 为 某 列 使 用 该 列 的 均值 来 填补 数据 : 


from pandas import DataFrame 


from pandas import read excel 


df = read excel('e://rz2 0.xlsx') 


df.fillnal(df.mean() ['math':'physical']) 
Out [9] : 
No math Physical Chinese 

0 全 76 85 78 

L 2 55 56 NaN 

76 $95 85 

4 81 TS 58 

4 5 87 52 68 


(7) strip0: 清除 字符 型 数据 左右 (首尾 ) 指 定 的 字符 ， 默 认为 空格 ， 中 间 的 不 清除 。 
【 例 4-13】 删 除 字 符 串 左右 或 首位 指定 的 字符 : 


from Pandas import DataFrame 

from pandas import read excel 

df = read excel('e://rz2.xlsx') 

newDF=Qf['IP'] .str.strip() # 因 为 TIP 是 一 个 对 象 ， 所 以 先 转 为 str 


newDF 
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Out[4]: 
221,205.98:55 
LTO LA 205 
221205599 55 
22253455 二 200 
120.207.64.3 
222.31.51 206 
1 2 
2215205596255 
183.184.230.38 
9 22U 209:9n 
To 183.184.230.38 


oaomuwmmwmnnmn 


Name: IP, dtype: object 


4.3.2 ”数据 抽取 


(1) 字段 抽取 一 一 抽出 某 列 上 指定 位 置 的 数据 ， 做 成 新 的 列 : 


slice (start, stop) 


start 为 开始 位 置 。 
stop 为 结束 位 置 。 
【 例 4-14】 从 数据 中 抽出 某 列 : 


from pandas import DataFrame 


from pandas import read excel 


df = read excel('e://rz2.xlsx') 


dEL'TCSI =dEL TOSI'] astvpe (etry # astype () 转化 类 型 
| 

Out [1] : 

0 18922254812 
13522255003 
2 13422259938 
3 18822256753 
4 18922253721 
和 nan 
6 13822254373 
7 13322252452 
8 18922257681 
9 13322252452 


10 18922257681 
Name: TCSJ, dtype: object 
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8 7681 
A 2452 
10 7681 
Name: TCSJ, dtype: 


(2) 字段 拆 分 一 一 按 指定 的 字符 sp， 拆 分 已 有 的 字符 串 : 


object 


split (sep,n, expand=False) 

sep 是 用 于 分 隔 字符 串 的 分 隔 符 。 

n 为 分 割 后 新 增 的 列 数 。 

expand 代表 是 否 展开 为 数据 框 ， 默 认为 False。 


册 


返回 值 : expand 为 True， 返 回 DaraFrame; 为 False 返回 Series 。 
【 例 4-1S】 拆 分 字符 串 为 指定 的 列 数 : 


from pandas import 


from pandas import 


DataFrame 


read excel 


df = read excel('e://rz2.xlsx') 
newDF=df['IP'] .str.strip() #IP 先 转 为 str， 
newDF=df['IP'] .str.split('.',1,True) # 按 
newDF 
Qat [Tl 
0 1 
0 2 205.98.55 
二 183 184.226.205 
2 221 205.98.55 
3 222 3 下 51 200 
4 120 207.64.3 
5 222 3 0 
6 222 3 59 2220 
7 221 205: 98.55 
8 183 184.230.38 
9 221 205.98.55 
10 183 184.230.38 


newDF .columns 


[' 


| 


newDF 
Out [2] : 

下 全 沙 IP2-4 
0 公有 下 0 
下 183 184.226.205 
2 221 205.98.55 
3 222 31.51.200. 


.140\. 


SR 


再 删除 首位 空格 


一 个 .' 分 成 两 列 ，1 表示 新 增 的 列 数 


# 给 第 一 第 二 列 增加 列 名 称 
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4 120 207564.3 
5 222 31.31200 
6 222 0 
7 儿 2] 2057598:55 
8 93 184.230.38 
9 2 20579855 
10 3 184.230.38 


(3) 记录 抽取 一 一 是 指 根据 一 定 的 条 件 ， 对 数据 进行 抽取 。 


dataframe [condition] 


condition 为 过 滤 条 件 。 
返回 值 : DataFrame。 
常用 的 condition 类 型 如 下 。 
比较 运算 : <、>、>=、<=、!=， 如 df[df comments>10000)] 。 
范围 运算 : between(left,right)， 如 df[df.comments.between(1000,10000)]。 
置 运 算 : pandas.isnull(column)， 如 df[df.title.isnull0]。 
匹配 


str.contains(patten, na=False)， 如 dfldf.title.str.contains(“ 电 台 ’, na=False)]。 
得 运算 : &( 与 )、|( 或 )、not( 取 反 )， 如 : 


df[ (df.comments>=1000)&(df.comments<=10000)] 


上 面 这 一 句 跟 df[df.comments.between(1000,10000)] 等 价 。 
【 例 4-16】 按 条 件 抽取 数据 : 


import pandas 


from pandas import read excel 


df = read excel('e://r22: XLSX") 
df[df.TCSJ==13322252452] 
OH 

YHM TCSJ YWXT TR 


TSLA02048 13322252452 16.2257908+17 221205.98.55 
9 S1402048 13322252452 1.225790e+17 ‘221.205.98.55 


df[df.TCSJ>13500000000] 


Out[3]; 

YHM TCSJ YWXT IE N 
0 S1402048 18922254812 1.225790e+17 221205.98.55 
LL” Si411023 13522255093 1.2257908+17 183.184.226.205 
3 20031509 18822256753 NaN 22273TESL 200 
4 S1405010 18922253721 1.225790e+17 120.207.64.3 
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6 “S1404095 13822254373 “1.225790et+17 222..3L.59220 
8 S1405011 18922257681 1.225790e+17 183.184.230.38 
10 S1405011 18922257681 1.225790e+17 183.184.230.38 


DLSJ 
2014-11-04 08:44:46 
2014-11-04 08:45:06 
2014-11-04 08:47:41 
2014-11-04 08:49:03 
2014-11-04 08:50:02 
20l4 T1104 OAsLA4:85 
0 2014-11-04 08:14:55 


Foomwh 


df[df.TCSJ.between (13400000000,13999999999)] 


Out[4]: 

YHM TCSJ YWXT 江 恕 DLSJ 
1 S1411023 13522255003 1.225790e+17 183.184.226.205 2014-11-04 08:45:06 
2 S1402048 13422259938 NaN ‘221.205.98.55 2014-11-04 08;46:39 


6 "SL404095 13822254373 1.225790e+17 222531.59.220 2014-11-04 08:50:02 


df [df.YWwXT.isnull()] 


Out[5]: 

YHM TCSJ YWXT I DLSJ 
2 S1402048 13422259938 NaN 2217205.98.55 2014=11-Q04 08:46:39 
3 20031509 18822256753 NaN 222.31.51.200 2014-11-04 08:47:41 


dflaf. .TP Str Contains(.222 "7na=palse)d] 


Out [6] : 

YHM TCSJ YWXT IP DLSJ 
3 20031509 18822256753 NaN 222.31.51.200 2014-11-04 08:47:41 
5 20140007 NaN 12225790e+1T7 了 222.31551200 2014-11-04 08:50:06 


6 S1404095 13822254373 T2257908et17 22203159220 2014-11-04 08:50:02 


(4) 随机 抽样 一 一 是 指 随 机 从 数据 中 按照 一 定 的 行 数 或 者 比例 抽取 数据 : 


numpy.random.randint (start,end,num) 


start 为 范围 的 开始 值 。 
end 为 范围 的 结束 值 。 
num 为 抽样 个 数 。 
返回 值 : 行 的 索引 值 序列 。 
【 例 4-17】 随 机 抽取 数据 : 


回 
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import numpy 
import pandas 
from pandas import read excel 


df = read excel('e://rz2.xlsx') 


df 
Guteldls 

YHM TECSJ YWXT 于 县 DLSJ 
0 S1402048 18922254812 1.225790e+17 221 205790759 2014-11-4 8:44 
1 sia411023 13522255003 .2257908+17 183.184.226,205 2014-11-4 .8:45 
2 S1402048 13422259938 NaN L205 965 2014-11-4 8:46 
3 20031509 18822256753 NaN 3 全 二 由 二 站 
4 SIA050L0 T8922253721] .1412225790e+17 120.207.64.3 和 0A BA 
5 20140007 NaN 1.225790e+]7 22253155122001 22014-1154 8:58 
6 S1404095 13822254373 1.225790e+17 222031559.220 “2014"41- 4 8:50 
7 S1402048 13322252452 1.225790e+17 221-205.98.55 2014-11-4 8:49 
SU S14050il T92225768T -2257906119 T8314 230538 2014=11=54 854 
9 S402048 T3322252452 .2257908417 221.205.98755 2014-11-4 8:49 
10S1405011 18922257681 1.225790e+17 183.184.230.38 2014-11-4 8:14 


r = numpy.random.randint (0,10,3) 
Es 
Cuclal: arrav([ler 2 $1 


df.loc[r,:] # 抽 取 工 行 数据 


GUEST 

YHM TCSJ YWXT i DLSJ 
8 S1405011 18922257681 1.225790e+17 183.184.230.38 2014-11-04 08:14:55 
2 S1402048 13422259938 NaN 221.205.98.55 2014-11-04 08:46:39 


9 S1402048 13322252452 1.225790e+17 221.205.98.55 2014-11-04 08:49:18 
如 下 我 们 来 说 明 如 何 按 照 指 定 条 件 抽取 数据 。 
@ 使 用 index 标签 选取 数据 : dfloc[ 行 标签 , 列 标签 ]。 例 如 : 


可 # 选 取 ab 两 行 数 据 ， 假 设 a、b 为 行 索引 
TCSJ'] # 选 取 TCSJ 列 的 数据 


人 上 De 
df.10¢ 


dfloc 的 第 一 个 参数 是 行 标签 ， 第 二 个 参数 为 列 标签 (可 选 参数 ， 默 认为 所 有 列 标签 )， 
两 个 参数 既 可 以 是 列表 ， 也 可 以 是 单个 字符 ， 如 果 两 个 参数 都 为 列表 ， 则 返回 的 是 
DataFrame， 和 否则 为 Series。 

@@ 使 用 切片 位 置 选取 数据 : df.iloc[ 行 位 置 , 列 位 置 ]。 例 如 : 


ean le | # 选 取 第 二 行 ， 第 二 列 的 值 ， 返 回 的 为 单个 值 
df.iloc[[0,2],:] +# 选 取 第 一 行 和 第 三 行 的 数据 


加 
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| 骨 | 说 明 : 


数 时 为 第 1 行 ， 也 称 为 行 号 ， 是 从 1 靖 
‘three’、‘four 或 ‘a? 、‘b?、‘c*、“d’ 等 字符 串 ， 我 们 称 
不 是 行 位 置 ， 如 下 例 中 df2.loc[1] 索 引 的 是 第 一 行 ( 行 号 为 1)， 划 


df.iloc[0:2,:] 
driliocekrry 
df.iloc[1,:] 


# 选 取 所 有 记录 的 第 一 殉 
# 选 取 第 一 行 数据 ， 返 回 


# 选 取 第 一 行 到 第 三 行 (不 包含 ) 的 数据 
的 值 ， 返 回 


的 为 一 个 series 


的 为 一 个 Series 


loc 为 location 的 缩写 ，iloc 则 为 integer 多 location 的 缩写 。 更 广义 的 切片 方 


式 是 使 用 这 ， 它 自动 根据 给 出 的 索引 类 型 判断 是 使 用 位 置 还 是 标签 进行 切 


片 。 


即 iloc 为 整 型 索引 ; loc 为 字符 串 索 引 ; ix 是 iloc 和 1]oc 的 合体 。 


Python 默认 的 行 序号 是 从 0 开始 的 ， 我 们 称 为 行 位 置 ， 但 实际 上 0 开始 的 行 我 们 在 计 


nt 


是 位 置 ， 不 能 是 标签 或 行 号 ; 这 则 三 者 皆 可 。 


14， 


import pandas as pd 
['a','b'] 
[1,2] 


index loc = 


Lndex T1400 = 


data = [[1,2,3,4],[5,6,7,8]] 
columns = [7one' 'two','three','four'] 
dfl = 


df2 = 


print (df1l.loc['a']) 


one C4 
two 2 
three 3 
four 4 
Name: a, dtype: int64 


#iloc 不 能 索引 字符 串 


Traceback (most recent call last): 


print (df1.iloc['a']) 


TypeError: 
with these indexers [a] of <class 'str'> 


print (df2.iloc[1]) #iloc 索引 的 是 行 位 置 


one 5 
two 6 
three 
four 8 
Name: 2, dtype: int64 


print (df2.10oc[1]) 


F 始 的 ， 有 时 index 是 被 命名 的 ， 如 ‘one’*、“two’、 


i 


为 标签 。loc 索引 的 是 行 号 、 标 签 ， 


实 位 置 为 0 行 ，iloc 索引 的 


pd.DataFrame (data=data, index=index_loc,columns=columns) 


pd.DataFrame (data=data,index=index iloc,columns=columns) 


cannot do label indexing on <class 'pandas.core.index.Index'> 


#loc[1] 索 引 的 是 行 号 ， 的 对 应 的 行 位 置 为 0 行 
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Name: 1, dtype: int64 


print (df1.ix[0]) 


one 1 
two 2 
three 3 
four 4 


Name: a, dtype: int64 


peintldrt xia 


one 
two 2 
three 3 
four 4 


Name: a, dtype: int64 


@ ”通过 逻辑 指针 进行 数据 切片 : df 逻辑 条 件 ]。 例 如 : 


df[df.TCSJ >= 18822256753] ”# 单 个 逻辑 条 件 
df[ (df.TCSJ >=13422259938)& (df.TCSJ < 13822254373) ] # 多 个 逻辑 条 件 组 合 


这 种 方式 获取 的 数据 切片 都 是 DataFrame。 例 如 : 


dfldf. T0890 >= 18822256753] 
Out[14]: 

YHM TCSJ YWXT TP DLSJ 
0 S1402048 18922254812 1.225790e+17 221.205.98.55 2014-11-04 08:44:46 
3 20031509 18822256753 NaN 222.31.51.200 2014-11-04 08:47:41 
4 S1405010 18922253721 1.225790e+17 120.207.64.3 2014-11-04 08:49:03 
8 Si405011 18922257681 1 225790et17 183,.184.230.38 2014=11-04 08>14:55 
10 S1405011 18922257681 1.225790e+17 183.184.230.38 2014-11-04 08:14:55 


(5) 字典 数据 一 一 将 字典 数据 抽取 为 dataframe， 有 三 种 方法 : 


import pandas 


from pandas import DataFrame 


#1。 字典 的 key 和 value 各 作为 一 列 

二 和 

al=pandas .DataFrame .from dict(dl, orient='index') 
# 将 字典 转化 为 dataframe， 且 key 列 做 成 了 inaex 

al.index.name = 'key' # 将 index 的 列 名 改 成 'key' 
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bl=al.reset index() # 重 新 增加 index， 并 将 原 index 做 成 了 'key' 列 
bl.columns=['key', 'value'] # 对 列 重新 命名 为 'key' 和 'value' 


bl 
Out [1]: 

key value 
0 DQ 
0 


#2 .字典 里 的 每 一 个 元 素 作为 一 列 ( 同 长 ) 


d2=1 "a [lr2n3] Dt45y6]} 
a2= DataFrame (d2) 

a2 

Out [2] : 

b 


WNPD 


4 
六 
6 


# 字 典 的 value 必须 长 度 相等 


#3. 字典 里 的 每 一 个 元 素 作为 一 列 (不 同 长 ) 
d= {'one' : pandas.Series([1,2,3]),'two' : pandas.Series([1,2,3,4])} 


# 字 典 的 value 长 度 可 以 不 相等 
df = Pandas .DataFrame (d) 
df 
Outl3]: 
one two 
ty 
200 
30 
NaN 


也 可 以 像 下 面 这 样 处 理 ， 


import pandas 


w mm FF 
心 w N PP 


from pandas import Series 
import numpy as np 


from pandas import DataFrame 


d= dict( A = np.array ([1,2]), 


DataFrame (dict ([(k,Series (v)) 


B= np.array([1,;2,3,4]) ) 


for kyv rl 和 人 Sm 
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2 NaN 3 
3 NaN 4 


还 可 以 处 理 如 下 : 


import numpy as np 
import pandas as pd 


my dict = dict(A = np.array([1,2]), B = np.array([1,2,3,4])) 
df = pd.Dataprame. from dioct (my dict, orient="index').T 


df 
Out[5]: 

A B 
(Re 
0 20 
2 NaN 3.0 
3 NaN 4.0 


4.3.3 ”排名 索引 


1. 排名 排序 


Series 的 sort_index(ascending=True) 方 法 可 以 对 index 进行 排序 操作 ，ascending 参数 
于 控制 升序 或 降序 ， 默 认为 升序 。 
在 DataFrame 上 ，.sort index(axis=0，by=None，ascending=True) 方 法 多 了 一 个 轴 向 的 选 
择 参数 ， 以 及 一 个 by 参数 ，by 参数 的 作用 ， 是 针对 某 一 ( 些 ) 列 进行 排序 (不 能 对 行使 用 by 
参数 )。 

例如 : 


from pandas import DataFrame 
df0={ "Qhio': [0,6,3],"'Texas':[7,4,1],'California':[2,8,5]} 
df=DataFrame (df0,index=['a','c','d']) 


df 
nt [ll 
California Ohio Texas 
a 到 0 2 
浊 8 6 4 


5 3 3 
df.sort index(by='Ohio') 


Oatt2l 
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California Ohio Texas 


a 8 0 学 
5 3 
8 6 4 


df.sort index(by=["'California','Texas']) 


out [3] : 
California Ohio Texas 
a 2 0 7 
和 入 1 
- 8 6 4 


df.sort index(axis=1) 


Out [4] : 
California Ohio Texas 
a 2 0 
Le 8 6 4 
5 3 此 


排名 (Series.rank(method='average”，ascending=True)) 的 作用 与 排序 的 不 同 之 处 在 于 ， 它 
会 把 对 象 的 values 替换 成 名 次 (从 1 到 n)， 对 于 平 级 项 ， 可 以 通过 方法 里 的 method 参数 来 


处 理 ，method 参数 有 4 个 可 选项 : average、min、max、first。 举 例如 下 : 


>>> ser=Series([3,2,0,3],index=list ('abcd')) 


>>> ser 
a 及 
b 2 
© 0 
qd Bs 


dtype: int64 


>>> Ser.rank( 


a ERR 
b 2.0 
Ct 1.0 
qd $5 


dtype: float64 


>>> ser.rank (method='min') 


a 3 
b 
c 1 
d ， 


dtype: float64 
>>> ser.rank (method='max') 


.148. 


a 
b 
总 


dq 


蔬 4 六 ”Python 数 襄 分析 实 以 人 


4 
2 
由 
4 


dtype: float64 
>>> ser.rank (method='first') 


dtype: float64 


j 注意 :; ”在 ser[0] 和 ser[3] 这 对 平 级 项 上 ， 不 同 method 参数 表现 出 的 不 同名 次 。 


2 


DataFrame 的 .rank(axis=0, method=“average’, ascending=True) 方 法 多 了 axis 参 
数 ， 可 选择 按 行 或 者 按 列 分 别 进行 排名 ， 暂 时 好 像 没 有 针对 全 部 元 素 的 排名 
重新 索引 


Series 对 象 的 重新 索引 通过 其 .reindex(index=None,**kwargs) 方 法 来 实现 。**kwargs 


Pa 


例 


的 参数 有 两 个 : method=None 和 fill_ value=np.NaN。 
如 : 


>>>from pandas import Series 
>>>ser = Series([4.5,7.2,-5.3,3.6],index=['d','b','a','c']) 
>>> R = ['a','b','c','d','e'] 


>>> ser.reindex (A) 


a 
b 
C 
ad 
& 


523 
六 
3.6 
4.5 
NaN 


dtype: float64 
>>> ser = ser.reindex (A, fill value=0) 


a 
b 
S 
ad 
e 


人 
Douammbow 


dtype: float64 
>>> Ser.reindex(Armethod='ffil1l7) 


(149\. 


"OO Python 数据 分 析 基 础 


A 
b Tw 
总 3.6 
qd 4.5 
a 4.5 


dtype: float64 
>>> ser.reindex (A, fill value=0,method="'ffill') 


a = 
b 党 二 2 
c 3.6 
Q 4.5 
e A455 
dtype: float64 


> 


Teindex() 方 法 会 返回 一 个 新 对 象 ， 其 index 严格 遵循 给 出 的 参数 ，method:{‘backfill”， 


“bfill，“pad”，“ffil)，None} 参 数 用 于 指定 插值 (填充 ) 方 式 ， 当 没有 给 二 


时， 默认 


填充 ， 值 为 NaN(ffill = pad，bfill = back fill， 分 别 指 插值 时 向 前 还 是 
DataFrame 对 象 的 对 

Series 多 了 一 个 可 选 的 columns 参数 ， 

值 方法 method 参数 只 能 应 用 于 行 ， 即 轴 axis = 0。 
例如 : 


>>> state = ['Texas', 'Utha','California'] 


>>> df.reindex (columns=state,method="'£ffill') 


Texas Utha California 


a 1 NaN 2 
2 4 NaN - 
qd 号 NaN 8 


[3 rows x 3 columns] 


向 后 取 值 )。 


fill_value 


看 新 索引 方法 .reindex(index=None,columns=None,**ykwargs) 仅 比 


给 列 索引 。 用 法 与 上 例 Series 类 似 ， 只 不 过 插 


>>> df.reindex (index=['a','b','c','d'],columns=state,method='ffill') 


Texas Utha California 


a 1 NaN 2 
b 2 NaN 2 
c 4 NaN 5 
qd 时 NaN 8 


[4 rows x 3 columns] 
>>> 


可 不 可 以 通过 df.T.reindex(index,method=“**”).T 这 样 的 方式 来 实现 在 列 上 的 插值 呢 ? 


.1150\， 
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答案 是 肯定 的 。 另 外 要 注意 ， 使 用 reindex(index,method=:**?7) 的 时 候 ，index 必须 是 单调 


的 ， 和 否则 就 会 引发 一 个 ValueError: Must be monotonic for forward fll， 比 如 上 例 时 


次 调用 ， 如 果 使 用 index=[“a*,‘b’,‘d’,‘c?]， 就 会 报错 。 


P 的 最 后 一 


4.3.4 数据 合并 


(1) 记录 合并 一 一 是 指 两 个 结构 相同 的 数据 框 合并 成 一 个 数据 框 ， 也 就 是 在 一 个 数据 
框 中 追加 另 一 个 数据 框 的 数据 记录 : 


concat ([dataFramel, 


dataFramel 为 数据 框 。 
返回 值 : DataFrame。 
【 例 4-18】 合并 两 个 数据 框 ， 即 合并 记录 : 


import pandas 


dataFrame2, ...]) 


from pandas import DataFrame 


from pandas import read excel 


Afl = tread excell Sl/ /22 WL) 
df1l 
QuelEle 

YHM TCSJ YWXT ER 
0 S1402048 18922254812 1.225790e+17 221.2053298>55 
. STA411023 13522255003 全,.2257908+17 183.184.226.205 
2 S1402048 13422259938 NaN 221:205.98.55 
20031509 18822256753 NaN 2 0 
4 S1405010 18922253721 1.225790e+17 120.207.64.3 
5 20140007 13422259313 1.225790e+17 222.31.51-200 
6 Si404095 13822254373 1.2257908+17 222.312:59.220 
ya S1402048 13322252452 1.225790e+17 221. 2004896.55 
8 S1405011 18922257681 1.225790e+17 Ta3eL84.230.38 
S1402048 13322252452 1.225790e+17 en SEE 
10 ST405011 8922257681 1.2257908+17 183.184.230.38 
df2 = read excell('e://rz3.xl1sx') 
df2 
Out [2]: 

YHM TCSJ YWXT IP 
0 S1402011 18603514812 1,.225790e+17 2215205238.55 


1 S1411022 
2 S1402033 


13103515003 工 -225790e+17 


13203559930 


NaN 


183.184.226.205 
221° 205.98555 
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/15A. 


df=pandas.concat ([df1,df2]) 


df 
Out [3] : 

YHM TCSJ YWXT TB 
0 S1402048 18922254812 1.225790e+17 221.2052985353 
1 S1411023 13522255003 1.225790e+17 183.184.226.205 
2 S1402048 13422259938 NaN 221 -2505 
3 ‘20031509 18822256753 NaN 222731.51.200 
4 S14050140 18922253721 T225790et17 120.207.64.3 
5 20140007 13422259313 1;225790e+17 hc 
6 S1404095 13822254373 1.225790e+17 2 20 
法 S1402048 13322252452 1.225790e+17 221.205598755 
8 SiI405011 48922257681 1:225790e+17 1836184>230.38 
9 S1402048 13322252452 1.225790e+17 221205 .93803 
10 "SiA05SQLL T8922257T681 152257908+17 183.184.230.38 
0 S1402011 18603514812 1.225790e+17 2217205053855 
1 SIA411022 13103515003 T225790e+17 183.184.226.205 
2 S1402033 13203559930 NaN lo200599055 


两 个 文件 的 数据 记录 都 合并 到 一 起 了 ， 实 现 了 数据 记录 的 “又 加 ”或 者 记录 顺延 。 
(2) 字段 合并 一 一 是 指 对 同一 个 数据 框 中 不 同 的 列 进行 合并 ， 形 成 新 的 列 。 


X= Xltx2te 


xl 为 数据 列 1。 

x2 为 数据 列 2。 

返回 值 : Series， 合 并 后 的 系列 。 要 求 合 并 的 系列 长 度 一 致 。 
【 例 4-19】 多 个 字段 合并 成 一 个 新 的 字段 : 


import pandas 


from pandas import DataFrame 


from pandas import read csv 


df = read csv('e://rz4.csv',sep=" “",names=['band', 'area', 'num']) 
df 
Out [1]: 


band area num 
LB ZA25 O12 
35 2225 5003 
134 2225. 9938 
188 2225 6153 
89 2225 372. 
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Ld 2200 .9313 
2225 4373 
下 43 二 22 本 5 
.89 2225 58 下 


o om wu 
已 
w 
oo 


df = df.astype (str) 
tel=df['band']+df['area']+df['num'] 
tel 

Out [2]: 

18922254812 
13522255603 
13422259938 
18822256753 
18922253721 
13422259313 
13822254373 
13322252452 
18922257681 
dtype: object 


(3) 字段 匹配 一 一 是 指 不 同 结构 的 数据 框 (两 个 或 两 个 以 上 的 数据 框 )， 按 照 一 定 的 条 


wamummwmnrnmn oo 


件 进行 合并 ， 即 追加 列 : 
merge (x,y,left_on,right_on) 
x 是 第 一 个 数据 框 。 
y 是 第 二 个 数据 框 。 
left_on 是 第 一 个 数据 框 的 用 于 匹配 的 列 。 
right_on 是 第 二 个 数据 框 的 用 于 匹配 的 列 。 


加 


返回 值 ， DataFrame。 
【 例 4-20】 按 指定 唯一 字段 匹配 增加 列 : 


import pandas 


from pandas import DataFrame 

from pandas import read excel 

dfl = read excel('e://rz2.xlsx',sheetname='Sheet3') 
Ar. 

Out [1]: 


id band num 


00 30 LS 
1 2 13 124 
2 4 33 129 
Se Tn 28 
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df2 = read excel('e://rz2.xlsx',sheetname='Sheet4') 
df2 
Out [2]: 

id band area 


T309351 
1 2 L231 352 
0 32 S33 
3 "133 354 
4 T3355 
3 5 Re 356 


Pandas .merge (df1,df2,1eft on='id',right on="'id') 


Out [3]: 

id band x num band y area 
0 5 下 3002 30 3 
上 131 124 L331 52 
2 4 133 125 133 354 
3 134 126 L355 
4 3 TL34 126 L335 3 


这 里 只 匹配 了 有 相同 序号 的 行 ， 如 dfl 中 没有 id=3， 在 结果 中 也 没有 id=3， 但 是 在 
df2 中 有 两 个 id=5， 在 结果 中 也 有 两 个 id=5， 但 是 只 匹配 第 一 个 id=5。 


4.3.5 ”数据 计算 


(1) 简单 计算 一 一 通过 对 各 字段 进行 加 、 减 、 乘 、 除 等 四 则 算术 运算 ， 计 算出 的 结果 
作为 新 的 字段 ， 如 表 4-4 所 示 。 
表 4-4 字段 之 间 的 运算 结果 作为 新 的 字段 
| id | num | prce | [id | num | price | resut | 


1 123 159 ” 1 123 159 19557 
2 124 753 | 3 2 124 753 93372 
3 125 456 2 3 125 456 57000 
4 126 852 4 126 852 107352 

例如 : 

from pandas import read csv 

df = read csv('e://rz2.csv',sep="',') 

df 

Out [1] : 


id band num Price 
0 法 OA 小 


115 人 


2 了 53 
2 3 ES 125 456 
> 4 1 852 


result=df .price*df .num 
SU 

out [2] : 

0 L955 

1 93372 

2 57000 

: OAD 

dtype: int64 


df['result']=result 
qf 
OutT3le 

id band num price result 
0 二 PB 1 159 19557 
I ots 753°%93372 
2 132 125 456 57000 
3 4 E33 26 852 107352 


(2) 数据 标准 化 一 一 是 指 将 数据 按照 比例 缩放 ， 使 之 落 入 特定 的 区 间 ， 一 般 使 用 0~1 的 区 
间 来 标准 化 : 


X*= (x-min)/ (max-min) 


例如 : 


from pandas import read csv 


df = read csv('e://rz2.csv', sep="',") 


id band num price 
汪 130 123 二 导入 
2 753 
用 泪 名 2 小 放 与 456 
4 jl 852 


w mm Po 


scale=(df.price-df.price.min())/(df.price.max()-df.price.min()) 
scale 

Out[l2]3 

0 0.000000 
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1 0.857143 
2 0.428571 
> 1.000000 
Name: price, dtype: float64 


4.3.6 ”数据 分 组 


数据 分 组 是 根据 数据 分 析 对 象 的 特征 ， 按 照 一 定 的 数据 指标 ， 把 数据 划分 为 不 同 的 区 
间 来 进行 研究 ， 以 揭示 其 内 在 的 联系 和 规律 性 。 简单 地 说 : 就 是 新 增 一 列 ， 将 原来 的 数据 
按照 其 性 质 归 入 新 的 类 别 中 。 数 据 分 组 的 语法 如 下 ; 


cut (series,bins,right=True, labels=NULL) 


series 为 需要 分 组 的 数据 。 

bins 为 分 组 的 依据 数据 。 

right 为 分 组 的 时 候 右 边 是 否 闭合 。 

labels 为 分 组 的 自 定义 标签 ， 可 以 不 自 定义 。 
例如 ， 现 有 数据 如 表 4-5 所 示 ， 将 数据 进行 分 组 。 


表 4-5 数据 分 组 
序号 | 品牌 | 数据 | 价格 序号 | 品牌 | 数据 | 价格 类 别 
1 130 123 159 | 500 以 下 
2 131 124 | 753 500 以 上 
屋 132 125 456 500 以 下 
4 133 126 | 852 500 以 上 


import pandas 
#from pandas import DataFrame 


from pandas Import read csv 


df = road oav( GT Ca Soper ) 
df 
OCT 
id band num price 
T1309 123 159 
2 131 124 753 
3 1 A456 
4 L333 126 852 


w N PP 口 


bins=[min(daf.price)-1l,500,max(dqaf.Pzrice)+l] 
labels=["500 以 下 ", "500 以 上 "] 


节 4 六 ”Python 数 襄 分析 实 以 人 


Pandas .cut (df.price,bins) 

out [2] : 

0 (158, 500] 

(500, 853] 

(158, 500] 

3 (500, 853] 

Name: price, dtype: category 

Categories (2, object): [(158, 500] < (500, 853]] 


pandas.cut (df.price,bins,right=False) 

GE TS 

0 [158，500) 

. [500, 853) 

过 [158, 500) 

3 [500, 853) 

Name: price, dtype: category 

Categories (2, object): [[158, 500) < [500, 853)] 


pa=pandas.cut (df.price,bins,right=False,labels=labels) 


pa 
Out[5]: 

0 500 以 下 
500 以 上 
2 500 以 下 
3 500 以 上 


Name: price, dtype: category 
Categories (2, object): [500 以 下 < 500 以 上 ] 


df['label']=pandas.cut (df.price,bins,right=False,labels=labels) 
df 
Out[6]: 

id band num price label 


0 Tao Tos 159 500 以 下 

3 753 500 以 此 

2 456 500 以 下 

3 
4.3.7 日 期 处 理 


(1) 日 期 转换 一 一 是 指 将 字符 型 的 日 期 格式 转换 为 日 期 格式 数据 的 过 程 : 


to _ datetime (datestring,format) 
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format 格式 如 下 。 
%Y: 年 份 。 
@ %m: 月 份 。 
© %d: 期 。 
@ %H: 小 时 。 
@  %M: 分 钟 。 
@ %S: 秒 。 
【 例 4-21】 使 用 to_datetime(df 注册 时 间 , format=:“%Y/%my/%d) 转 换 : 


from pandas import read csv 


from pandas import to datetime 


df read Cav( ev//r23.C9V" /Sep rencoding= "utiS') 
qf 
Ga 

num Price year month date 
VU 123 159 2016 4 2016/6/1 
1 “124 753 2016 2 2016/6/2 
2 125 456 2016 3 2016/6/3 
~ 852 2016 4 2016/6/4 
27 0 ni 5 2016/6/5 
5 LI 299 2016 6 2016/6/6 
6 102 699 2016 7 2016/6/7 
20 599°%2016 8 2016/6/8 
0 154 199, 20146 2016/6/9 
9 142 899 2016 10 2016/6/10 


df _ dt = to datetime (df.date, format="%$Y/%m/%$d") 
df dt 

Out [2]: 

2016-06-01 

2016-06-02 

2016-06-03 

2016-06-04 

2016-06-05 

2016-06-06 

2016-06-07 

2016-06-08 

2016-06-09 

2016=06=10 

Name: date, dtype: datetime64[ns] 


OoJnurwo ho 
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注意 CSV 的 格式 是 否 是 utf8 格式 ， 否 则 会 报错 。 另 外 ，CSV 里 date 的 格式 是 文本 ( 字 


) 格 式 。 
(2) 日 期 格式 化 一 一 是 指 将 日 期 型 的 数据 按照 给 定 的 格式 转化 为 字符 型 的 数据 : 


apply (lambda x: 处 理 逻 辑 ) 


处 理 罗 辑 即 datetime.strftime(x,format)。 
【 例 4-22】 日 期 型 数据 转化 为 字符 型 数据 : 


#df_dt = to_datetime (df .注册 时 间 ,，format='%Y/s%m/%d'); 
#df_dt_str = df_dt.apply (df .注册 时 间 ，format='%Y/%m/%d') 


from pandas import read csv 
from pandas import to_datetime 


from datetime import datetime 


df = read csv('e://rz3.csv',sep=',',encoding='utf8') 
df dt = to datetime (df.date,format="%Y/%m/%d") 


df dt str=df dt.apply(lambda x: datetime.strftime (x,"%Y/%m/%$d")) 
#apply 见 后 注 

df dt _ str 

IO 和 在 人 

2016/06/01 

2016/06/02 

2016/06/03 

2016/06/04 

2016/06/05 

2016/06/06 

2016/06/07 

2016/06/08 

2016/06/09 

2016/06/10 

Name: date, dtype: object 


Ooprwor rho 


注意 ; 当 和 希望 将 函数 f 应 用 到 DataFrame 对 象 的 行 或 列 时 ， 可 以 使 用 .apply(f axis=0， 
args-(), **kwds) 方 法 ，axis=0 表示 按 列 运算 ，axis=1 表示 按 行 运算 。 例 如 : 


from pandas import DataFrame 

df=DataFrame ({'ohio':[1,3,6],'texas':[1,4,5],'california':[2,5,8]},index 
a 

df 

Oak 


.59\. 


"OO Python 数据 分 析 基 础 


california ohio texas 


a 加 . 
总 5 3 4 
8 6 5 
E = lambda x:x.max()-x.min() 
df.apply (£f) ”# 默 认 按 列 运算 , 同 df.apply (f,axis=0) 
RE 
california 6 
ohio 
texas 


dtype: int64 


df.apply (f, axis=1)  # 按 行 运算 


Out[l3]: 
a 1 
Le 2 
qd 总 


dtype: int64 


(3) 日 期 抽取 一 一 是 指 从 日 期 格式 里 面 抽 取出 需要 的 部 分 属性 : 
Data dt.dt.property 
属性 取 值 的 相关 含义 如 下 。 


second 1~60 秒 ， 从 1 开始 到 60。 
minute 1~60 分 ， 从 1 开始 到 60。 


坦 


hour 1~24 小 时 ， 从 1 开始 到 24。 

day 1~31 日 ， 一 个 月 中 第 几 天 ， 从 1 开始 到 31。 
month 1~12 月 ， 从 1 开始 到 12。 

year 年 份 。 

weekday 1~7， 一 周 中 的 第 几 天 ， 从 1 开始 ， 最 大 为 7。 


【 例 4-23】 对 日 期 进行 抽取 : 


from pandas import read csv; 
from pandas import to datetime; 
df = read csv('e://r2z3.csv',sep=',',encoding='utf8') 
df 
国民 
num Price year month date 
QF 123 S90 2016 1 2016/6/1 
1 124 753 "2016 2 2016/672 
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和 4 
4 5 
5 6 
6 4 
7 8 
8 号 
9 10 


Name: date, dtype: int64 


df dt.dt.month 
df_dt.dt.weekday 
df dt.dt.second 
df dt.dt.hour 


4.4 数据 分 析 


4.4.1 基本 统计 
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基本 统计 分 析 : 又 叫 描述 性 统计 分 析 ， 一 般 统 计 某 个 变量 的 最 小 值 、 第 一 个 四 分 位 
中 值 、 第 三 个 四 分 位 值 、 以 及 最 大 值 。 

describe0: 为 描述 性 统计 分 析 函 数 。 

常用 的 统计 函数 如 下 。 

size: 计数 (此 函数 不 需要 括号 )。 


sum(): 求 和 。 
mean(): 平均 值 。 
var0: 方差 。 


std0: 标准 差 。 
【 例 4-24】 数 据 的 基本 统计 : 


from pandas import read csv 


df = read csv('e://rz3.csv!' :Sep=',',encoding='utf8') 
df 
Out [1] : 
num price year month date 
人 工人 站 三 2016/6/1 
et 53 2016 2 2016/6/2 
2 2 456 2016 3 2016/6/3 
3 126 852 2016 4 2016/6/4 
人 210 2016 5 2016/6/5 


L113 
102 
201 
154 
142 


wom nau 


229 
699 
玉生 人 
199 
899 


2016 
2016 
2016 
2016 


2016 3 


df.num.describe () 


Out [2] : 


Count 
mean 
StQ 
min 
25% 
50% 
75% 
max 


Name: 


num, 


10。 
33 
2 
人 
B23 
25 
二 382 
2 


df.num.size 


Out[3]: 


10 


df.num.max() 


Out[4]:; 


201 


df.num.min() 


Out [5]: 


102 


df.num.sum() 
L333 


Out[6]: 


00000 
90000 
39201 
00000 
25000 
50000 
25000 
00000 


dtype: floa 


# 注 意 : 这 是 


2016/6/6 
2016/6/7 
2016/6/8 
2016/6/9 
2016/6/10 


Deoom mm 


七 64 


有 没有 括号 () 


df.num.mean () 


out [7] : 


汪汪 3 


df.num.var() 
T503222222222221 


Out[8]: 


df.num.std() 
Out[9]: 27.392010189510046 


9 


4.4.2 ”分 组 分 析 


分 组 分 析 : 是 指 根据 分 组 字段 将 分 析 对 象 划分 成 不 同 的 部 分 ， 以 对 比分 析 各 组 之 间 差 
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异性 的 一 种 分 析 方 法 。 
常用 的 统计 指标 : 计数 、 求 和 、 平 均值 。 
常用 形式 : 
df.groupby(by=[ "分 类 1 ' 分 类 2 ...])[" 被 统计 的 列 '] .agg({ 列 别名 1: 统计 函数 1， 
列 别名 2: 统计 函数 2，.. . }) 
by 分 组 的 列 。 
[1 于 统计 的 列 。 
.agg 一 一 统计 别名 ， 显 示 统 计 值 的 名 称 ， 统 计 函 数 用 于 统计 数据 。 


size 一 一 计数 。 
sum 求 和 。 
meanm 均值 。 


【 例 4-2S】 分 组 分 析 : 


import numpy 
from pandas import read excel 


df = read excel('e:\\rz4.xlsx') 
df 
Out [1]: 

学 号 班级 ”姓名 性 别 英语 体育 军训 数 分 高 代 解 几 计算 机 
0 2308024241 23080242 成 龙 男 76 78 77 40 2 6 89 
1 2308024244 23080242 周 怕 女 66 91 75 47 47 44 82 
2 2308024251 23080242 张波 男 85 81 75 45 45 60 80 
3 2308024249 23080242 朱 浩 男 65 50 80 72 62 71 82 
4 2308024219 23080242 封印 女 73 88 92 61 47 46 83 
5 2308024201 23080242 人 迟 培 男 60 50 89 71 76 71 82 
6 2308024347 23080243 李 华 女 67 61 84 61 65 78 83 
7 2308024307 23080243 陈 田 男 76 79 86 69 40 69 82 
8 2308024326 23080243 余 插 ” 男 66 67 65 Sl 95 
9 2308024320 23080243 李 嘉 女 62 60 90 60 67 77 95 
10 2308024342 23080243 李 上 初 男 76 90 84 60 656 60 82 
11 2308024310 23080243 部 窦 女 79 67 84 64 64 79 85 
12 2308024435 23080244 姜 毅 涛 男 77 ?71 87 61 73 76 82 
13 2308024432 23080244 赵 字 男 74 74 88 68 70 71 85 
14 2308024446 23080244 周 路 女 76 80 77 61 74 80 85 
15 2308024421 23080244 林 建 祥 男 72 72 81 63 90 75 85 
16 2308024433 23080244 李 大 强 男 79 76 77 78 70 70 89 
17 2308024428 23080244 李 侧 通 男 64 96 91 69 60 77 83 
18 2308024402 23080244 王 菇 女 73 74 93 70 71 75 88 
19 2308024422 23080244 李 晓 亮 男 85 60 85 72 72 83 89 
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df .groupby (by=[' 班 级 ',' 性 别 '] ) [' 和 军训 '] .agg ({' 总 分 ' :numpy.sum, ' 人 数 ' : 
! 平 均值 ' :numpy .mean, ' 方 差 ' :numpy .var, ' 标 准 差 ' :numpy .std, ' 最 高 分 ' : 
numpy .max, ' 最 低 分 ' :numpy.min}) 


numpy. size, 


Out[2]: 
标准 差 方差 ”最 高 分 人 数 最 低 分 总 分 ”平均 值 

班级 性 别 
23080242 女 12.020815 144.500000 92 
男 6.184658 38.250000 89 


5 167 "63.500008 
175. 321 80250000. 
23080243 女 3.464102 12.000000 90 84 258 86.000000 
84 255 85.000000 
77 170 85.000000 


ll 509 84.833333 


男 1.000000 1.000000 86 
23080244 女 11.313708 128.000000 93 
男 5.076088 25.766667 91 


Now we 


4.4.3 ”分 布 分 析 


分 布 分 析 是 指 根 据 分 析 的 目的 ， 将 数据 (定量 数据 ) 进 行 等 距 或 不 等 距 的 分 组 ， 是 研究 
各 组 分 布 规律 的 一 种 分 析 方 法 。 
【 例 4-26】 分 布 分 析 : 


import numpy 


import pandas 


from pandas import read excel 


df = read excel('e:\\rz4.xlsx') 


df 
Got [rile 

学 号 班级 姓名 性 别 英语 体育 军训 数 分 高 代 解 几 计算 机 总 分 
0 2308024241 23080242 成龙 76 a 40 23 60 89 443 
和 2308024244 23080242 周 怡 66 3 汉 和 47 47 44 82 452 
2 2308024251 23080242 张波 85 SS 45 #45 :60 0 4 


3 2308024249 23080242 朱 浩 
4 2308024219 23080242 封印 
2308024201 23080242 迟 培 
2308024347 23080243 李 华 
总 2308024307 23080243 陈 田 


8 50 80 3 #3 71 82 ‘462 
73 88 92 61 47 46 83 490 
60 5D 站 yA 82 499 
67 61 84 61 65 78 83 499 
3673 a “69 dh ‘G9 .82 504 
8 2308024326 23080243 余 卑 56 67 85, 65 1 TT 35 510 
9 2308024320 23080243 ” 李 嘉 62 60 90 50 67 这 人 S50 oi 
10 2308024342 23080243 李 上 初 男 76 90 84 60 66 60 82 518 


对 洒洒 对 酒 对 汪 酒 对 浊 


11 2308024310 23080243 郭 罕 女 79 67 84 64 64 79 85 522 
12 2308024435 23080244 浅 毅 涛 男 77 71 87 61 73 76 82 527 
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13 2308024432 23080244 赵 宇 男 74 74 88 68 70 71 85 530 
14 2308024446 23080244 周 路 女 76 80 77 61 74 80 85 533 
15 2308024421 23080244 林 建 祥 男 72 72 81 63 90 75: 85 538 
16 2308024433 23080244 李 大 强 男 79 76 77 78 70 70 89 539 
17 2308024428 23080244 李 侧 通 男 64 96 91 69 60 77 83 540 
18 2308024402 23080244 王 慧 女 73 74 93 70 71 75 88 544 
19 2308024422 23080244 李 晓 亮 男 85 60 85 72 时 入 83 89 546 


bins = [min (df. 总 分 ) -1,450,500,max (df. 总 分 )+1]  ”# 将 数据 分 成 三 段 


bins 


Out[3]: [442, 450, 500, 547] 
labels=['450 及 其 以 下 ', '450 到 500'，,'500 及 其 以 上 '] # 给 三 段 数据 贴标签 


labels 
Out[5]: ['450 及 其 以 下 '，'450 到 500'，'500 及 其 以 上 '] 


总 分 分 层 = pandas .cut (df .总 分 ,bins,labels=labels) 


总 分 分 层 
Out[7]: 
0 450 及 其 以 下 
450 到 500 
2 450 到 500 
3 450 到 500 
4 450 到 500 
8 450 到 500 
6 450 到 500 
7 500 及 其 以 J 
8 500 及 其 以 上 
9 500 及 其 以 上 
10 500 及 其 以 上 
3 500 及 其 以 上 
2 500 及 其 以 上 
13 ”500 及 其 以 上 
14 500 及 其 以 上 
15 500 及 其 以 上 
16 500 及 其 以 上 
了 500 及 其 以 上 
18 500 及 其 以 上 
19 500 及 其 以 上 
Name: 总 分 ，dtype: category 


标 


T 
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Categories (3，object): [450 及 其 以 下 < 450 到 500 < 500 及 其 以 上 ] 


af [! 总 分 分 层 '] = 总 分 分 层 


dr 
[Out8]: 

学 号 班级 姓名 性 别 英语 体育 军训 数 分 高 代 解 几 计算 机 基础 总 分 “总 分 分 层 
0 2308024241 23080242 成 龙 男 76 78 77 40 23 60 89 443 450 及 其 以 下 
1 2308024244 23080242 周 谷 女 66 91 75 47 47 44 82 452 450 到 500 
2 2308024251 23080242 张波 男 85 81 75 45 45 60 80 471 450 到 500 
3 2308024249 23080242 和 朱 洗 男 65 50 80 72 62 71 82 482 450 到 500 
4 2308024219 23080242 封印 女 73 88 92 61 47 46 83 490 450 到 500 
5 2308024201 23080242 退 培 男 60 50 89 71 76 71 82 499 450 到 500 
6 2308024347 23080243 李 华 女 67 61 84 61 65 78 83 499 450 到 500 
7 2308024307 23080243 陈 田 男 76 79 86 69 40 69 82 501 500 及 其 以 上 
8 2308024326 23080243 余 持 男 66 67 85 65 61 71 95 510 500 及 其 以 上 
9 2308024320 23080243 李 嘉 女 62 60 90 60 67 77 95 511 500 及 其 以 上 
10 2308024342 23080243 李 上 初 男 76 90 84 60 66 60 82 518 500 及 其 以 上 
11 2308024310 23080243 部 窒 女 79 67 84 64 64 79 85 522 500 及 其 以 上 
12 2308024435 23080244 姜 亲 涛 男 ?7 71 87 61 73 76 82 527 500 及 其 以 上 
13 2308024432 23080244 起 宇 男 74 74 88 68 70 71 85 530 500 及 其 以 上 
14 2308024446 23080244 周 路 女 76 80 77 61 74 80 85 533 500 及 其 以 上 
15 2308024421 23080244 林 建 祥 男 72 72 81 63 90 75 85 538 500 及 其 以 上 
16 2308024433 23080244 李 大 强 男 ?9 76 77 78 70 70 89 539 500 及 其 以 上 
17 2308024428 23080244 李 仙 通 男 64 96 91 69 60 77 83 540 500 及 其 以 上 
18 2308024402 23080244 王 慧 女 73 74 93 70 71 75 88 544 500 及 其 以 上 
19 2308024422 23080244 李 晓 亮 男 85 60 85 72 72 83 89 546 500 及 其 以 上 


df.groupby (by=[' 总 分 分 层 '] ) [' 总 分 '] .agg ({' 人 数 ' :numpy .size}) 


Out[9]: 

和 人数 
总 分 分 层 
450 及 其 以 下 1 
450 到 500 6 


500 及 其 以 上 13 


4.4.4 ”交叉 分 析 


叉 分 析 通 常用 于 分 析 两 个 或 两 个 以 上 分 组 变量 之 间 的 关系 ， 以 交叉 表 形 式 进行 变量 
间 关 系 的 对 比分 析 。 一 般 分 为 定量 、 定 量 分 组 交叉 ; 定量 、 定 性 分 组 交叉 ; 定性 、 定 型 分 
组 交叉 。 交 叉 分 析 所 使 用 的 分 析 函 数 如 下 


Pivot_table (values,indexvcolumnsvaggftuncvfil1_value) 
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values 一 一 数据 透视 表 中 的 值 。 
index- 数据 透视 表 中 的 行 。 
columnas: 数据 透视 表 中 的 列 。 


aggfunc 一 一 统计 函数 。 
fill_value 一 一 NA 值 的 统一 替换 。 
返回 值 : 数据 透视 表 的 结果 。 
【 例 4-27】 交 叉 分 析 : 


import numpy 


加 


import pandas 
from pandas import read excel 
# 在 Spyder 下 也 可 以 不 导入 


from pandas import pivot table 


df = read excel('e:\\rz4.xlsx') 

[min (df .总 分 ) -1, 450,500,max (df .总 分 ) +1] 

labels=['450 及 其 以 下 ','450 到 500','500 及 其 以 上 '] 

总 分 分 层 = pandas .cut (df .总 分 ,bins,labels=labels) 

df[' 总 分 分 层 ']= 总 分 分 层 

df.pivot_table (values=[' 总 分 '],index=[' 总 分 分 层 '] ,columns=[' 性 别 ']， 


bins = 


aggfunc=[numpy.size,numpy.mean]) 


Out[1]: 
12e mean 
总 分 总 分 
性 别 ww 女 曙 
总 分 分 层 
450 及 其 以 NaN 1 NaN 443.000000 
450 到 500 | 3 480.333333 484.000000 
500 及 其 以 上 4 9 527.500000 527.666667 


df.pivot table (values=[' 总 分 '], index=[' 总 分 分 层 '] ,columns=[' 性 别 ']， 
aggfunc-[numpy.size,/numpy.mean], fill value=-0) 


# 也 可 以 将 统计 为 0 的 赋值 为 零 ， 默 认为 nan 


Out [2] : 

1 
性 别 光电 
总 分 分 层 
450 及 其 以 下 0 1 
450 到 500 和 3 
500 及 其 以 4 9 
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0.000000 
480.333333 
527.500000 


总 分 


443.000000 


484.000000 


527.666667 


4.4.5 ”结构 分 析 


结构 分 析 是 在 分 组 的 基础 上 ， 计 算 各 组 成 部 分 所 占 的 比如 
的 一 种 分 析 方法 。 
所 使 用 的 函数 如 下 : 


af_pt.sum(axis) 


县 
漂 


而 分 析 总 体 的 内 部 特征 


df pt.div(df pt.suml(axis),axis) 


axis 参数 说 明 : 0 表示 列 ; 1 表示 行 。 
【 例 4-28】 结 构 分 析 : 
# 假 设 要 计算 班级 团体 总 分 情况 


import numpy 
import pandas 


from pandas import read excel 
from pandas import pivot_table # 在 Spyder 下 也 可 以 不 导入 


df = read excel{('e:N\r24:.XL1ax") 


df pt = df.pivot table (values=[' 总 分 '],index=[' 班 级 '] ,columns=[' 性 别 ']， 
aggfunc= [numpy. sum]) 


df pt 
CT 人 本 入 
Sum 
总 分 
性 别 次 男 
班级 


23080242 942 1895 
23080243 1532 1529 
23080244 1077 3220 


df_pt.sum() 

Out [2]: 
性 别 

sum 总 分 女 Se 
男 6644 


dtype: int64 
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df_pt.sum(axis=0) # 效 果 同 省 略 


GEf3 > 
性 别 

sum 总 分 女 3551 
男 6644 


dtype: int64 


df_pt.sum(axis=1) 
Out [4] : 

班级 

23080242 2837 
23080243 3061 
23080244 4297 
dtype: int64 


df _ pt.div(df pt.suml(axis=1),axis=0) # 按 列 占 比 
out [5] : 


性 别 女 男 

班级 

23080242 0.332041 0.667959 
23080243 0.500490 0.499510 
23080244 0.250640 0.749360 


af pt.div(df pt.suml(axis=0),axis=1) # 按 行 占 比 
Out [6] : 
Sum 
总 分 
性 别 次 肖 
班级 
23080242 0.265277 0.285220 
23080243 0.431428 0.230132 
23080244 0.303295 0.484648 


4.4.6 ”相关 分 析 


相关 方向 以 及 相关 程度 ， 是 研究 随机 变量 之 间 相 关 关 系 的 一 种 统计 方法 。 
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相关 分 析 是 研究 现象 之 间 是 否 存在 某 种 依存 关系 ， 并 对 具体 有 依存 


相关 系数 可 以 用 来 描述 定量 变量 之 间 的 关系 。 
相关 系数 与 相关 程度 如 表 4-6 所 示 。 


关系 的 现象 探讨 其 


ft 


srxt 人 
表 4-6 相关 系数 与 相关 程度 


0<Irl<0.3 低 度 相关 
0.3 友 <0.8 中 度 相 关 
0.8<h|<1 高 度 相关 


相关 分 析 函 数 : 


DataFrame.corr () 


Series.corr (other) 


如 果 由 数据 框 调用 corr 方法 ， 那 么 将 会 计算 每 列 两 两 之 间 的 相似 度 。 如 果 由 序列 调 
corr 方法 ， 那 么 只 是 计算 该 序列 与 传 入 的 序列 之 间 的 相关 度 。 

返回 值 : 

@ DataFrame 调用 将 返回 DataFrame。 

@ Series 调用 将 返回 一 个 数值 型 ， 大 小 为 相关 度 。 

【 例 4-29】 相 关 分 析 : 


import numpy 

import pandas 

from pandas import read excel 
df = read excel ("ee:\\rz4,X13x') 


df 
ET 
学 号 班级 ”姓名 性 别 英语 体育 军训 数 分 高 代 解 几 计算 机 基础 总 分 

0 2308024241 23080242 成 龙 男 76 78 77 40 23 60 89 443 
1 2308024244 23080242 周 怡 女 66 91 75 47 47 44 82 452 
2 2308024251 23080242 张波 男 85 81 75 45 45 60 80 471 
3 "2308024249 23080242 朱 浩 男 65 50 80 12 62 71 82 482 
4 2308024219 23080242 封印 女 73 88 92 61 47 46 83 490 
5 2308024201 23080242 人 迟 培 男 60 50 89 71 76 71 82 499 
6 2308024347 23080243 李 华 女 67 61 84 61 65 78 83 499 
7 2308024307 23080243 陈 田 男 76 79 86 69 40 69 82° 501 
8 2308024326 23080243 余 插 男 66 67 85 65 61 71 5 S10 
9 :2308024320 23080243 举 训 小 62 60 ‘90 60 67 77 95 “SE 
10 2308024342 23080243 李 上 初 男 76 90 84 60 66 60 82 518 
11 2308024310 23080243 郭 窦 女 79 67 84 64 64 79 S52 
12 2308024435 23080244 姜 孝 涛 男 77 71 87 61 73 76 2 .527 
13 2308024432 23080244 赵 字 男 74 74 88 68 70 71 85 530 
14 2308024446 23080244 周 路 女 76 80 77 61 74 80 85 533 


15 2308024421 23080244 林 建 祥 男 72 72 81 63 90 75 85°538 
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16 2308024433 23080244 李 大 强 男 79 76 77 78 70 70 89 539 


17 2308024428 23080244 李 侧 通 男 64 96 91 69 60 77 83 540 
18 2308024402 23080244 Ey 88 544 
19 2308024422 23080244 李 晓 亮 男 85 60 85 72 72 83 89 546 
# 两 列 之 间 的 相关 度 计算 


af [高 代 '] .corr (df[' 数 分 ']) 
Out[2]: 0.60774082332601076 


# 多 列 之 间 的 相关 度 计 算 
df.1loc[:,[' 英 语 ', ' 体 育 ',' 军 训 ',' 计 算 机 基础 ',' 解 几 ',' 数 分 ',' 高 代 '] ] .corr () 
Gaeta 

英语 体育 军训 ”计算 机 基础 ” 解 几 ” 数 分 高 代 
英语 1.000000 0.244323 -0.335015 -0.119039 0.027452 -0.129588 -0.125245 
体育 0.244323 1.000000 -0.111315 -0.266896 -0.526276 -0.369766 -0.382447 
军训 -0.335015 -0.111315 1.000000 0.148933 0.249299 0.469226 0.251903 
计算 机 基础 -0.119039 -0.266896 0.148933 1.000000 0.305934 0.123399 0.096979 
解 几 0.027452 -0.526276 0.249299 0.305934 1.000000 0.544394 0.613281 
数 分 -0.129588 -0.369766 0.469226 0.123399 0.544394 1.000000 0.607741 
高 代 -0.125245 -0.382447 0.251903 0.096979 0.613281 0.607741 1.000000 


4.5 数据 可 视 化 


4.5.1 饼 图 


饼 图 (Pie Graph) 又 称 圆 形 图 ， 是 一 个 划分 为 几 个 肩 形 的 圆 形 统计 图 ， 它 能 够 直观 地 反 


映 个 体 与 总 体 的 比例 关系 。 绘 制 饼 图 的 方法 如 下 : 
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piel(x,labels,colors,explode, autopct) 


x 进行 绘图 的 序列 。 
labels: 饼 图 的 各 部 分 标签 。 
colors 饼 图 的 各 部 分 颜色 ， 使 用 GRB 标 颜 色 。 


explode 一 一 需要 突出 的 块 状 序列 。 
autopct 一 一 饼 图 占 比 的 显示 格式 。 例 如 %.2f: 保留 两 位 小 数 。 
【 例 4-30】 绘制 饼 图 : 


import numpy 

import matplotlib 

import matplotlib.pyplot as plt 
from pandas import read csv 


srxt 人 


df = read csv('e:\\rz20.csv',sep="','") 


df 
Da] 

id band num “ Price 
0 1 130 联通 123 159 
EE 全 131 124 本 
20053 125 456 
3 “4 133 电 信 126 852 


gb=df.groupby (by=['band'],as_index=False) ['num'] .agg ({'price' :numpy .size}) 


gb 
Out [2]: 
band price 
0 130 联通 1 
于 于 有 出 出 
2 3 
3 133 电信 和 
# 为 了 便于 图 中 显示 中 文 


font = {'family':'SimHei'} 
matplotlib:rc('font', **font) 
# 画 饼 
plt.pie(gb['price'],labels=gb['band'],autopct='%.2f%%") 
plt.show() 


结果 如 图 4-11 所 示 。 


图 4-11 饼 图 


儿 注意 : ”在 画图 时 ， 所 有 的 字段 中 的 数据 列 含有 中 文 的 要 注意 它 所 保存 的 格式 必须 是 
utf-8， 否 则 会 报错 。 可 以 用 记事 本 打开 看 看 的 格式 ， 方 法 如 图 4-12 所 示 。 
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4-12 ”存储 为 utf-8 格式 


4.5.2 ” 散 点 图 


散 点 图 (scatter diagram) 是 以 一 个 变量 为 横 坐 标 ， 另 一 个 变量 为 纵 坐标 ， 利 用 散 点 (坐标 
点 ) 的 分 布 形态 反映 变量 关系 的 一 种 图 形 。 相 关 的 方法 如 下 : 

Plt plottxry Vcolor=(rrgrb)) 

P1Lt.xlabel('x 轴 坐标 ") 

plt.ylabel('y 轴 华 标 ') 

plt.grid (True) 

x、y 一 一 X 轴 和 YY 轴 的 序列 。 

Ro 小 点 还 是 大 点 。 

Color 一 一 散 点 图 的 颜色 ， 可 以 用 RGB 定义 ， 也 可 以 用 英文 字母 定义 。 

RGB 颜色 的 设置 ，(red,green,blue)， 由 红 绿 蓝 颜色 组 成 。 
常用 GRB 颜色 见 表 4-7。 


表 4-7 常用 GRB 颜色 对 照 


(L111 


(0,0, 0) #000000 
(1,0,0) #FFO000 
(1,0.5, 0) #FFASOO 
(LO) #FFFFOO 
(0, 1,0) #00FFOO 
(0,0,1) #0000FF 
(03, 0, 0.5) #4B0082 
(0.63, 0.13, 0.95) #A020FO 


#FFFFFF 
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例如 : 
import matplotlib 
import matplotlib.pyplot as plt 
from pandas import read csv 
df = read csv('e:\\rz20.csv',sep="',') 
df 
Out [1] : 
id band num price 
0 0 2 159 
五 2 131 124 了 53 
2 中 456 
1133 纪 信 120 052 
# 为 了 便于 图 中 显示 中 文 
font = {'family':'SimHei'} 
matplotlib.rol "font'r fonty} 
# 画 图 
Pit plot ta liprice dtl rm ry 
plt.xlabel('price') 
Plt.ylabel('num') 
plt.grid(True) 
plt.show() 
结果 如 图 4-13 所 示 。 
126.0 
15.5 上 ] 
125.0 上 上 ] 
§ 124.5 上 
124.0F 这 
123.5 上 了 
123.0 cl i Li 1 1 1 
100 200 300 400 500 400 mo a00 
price 
图 4-13 ” 散 点 图 
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4.5.3 ”折线 图 


折线 图 也 称 趋势 图 ， 它 是 用 直线 段 将 各 数据 点 连接 起 来 而 组 成 的 图 形 ， 以 折线 方式 显 
示 数 据 的 变化 趋势 。 相 关 的 方法 如 下 : 


Plot(xryr "=! FooLlGr) 
title (' 图 的 标题 ') 


“一 为 画 线 的 样式 。 有 多 种 样式 ， 详 见 表 4-8。 
表 4-8 plot 函数 画 线 样式 释义 


参数 值 说 明 
E 连续 的 曲线 
志 连续 的 用 带 点 的 曲线 
由 点 连 成 的 曲线 
5 小 点 ， 散 点 医 
o 大 点 ， 散 点 医 
像素 点 (更 小 的 点 ) 的 散 点 图 
* 五 角 星 的 点 ， 散 点 图 
> 右 角 标记 散 点 医 
< 左 角 标记 散 点 图 
1(2,3,4) 使 形 上 (下 左右 ) 标 记 散 点 
s 正方 形 标记 散 点 图 
p 五 角 星 标记 散 点 图 
v 下 三 角 标 记 散 点 图 
从 上 三 角 标 记 散 点 图 
h 多 边 形 标记 散 点 图 
d 钻石 标记 散 点 图 


例 主要 是 实现 以 学 号 的 后 三 位 为 横 轴 ， 总 分 为 纵 轴 ， 画 折线 图 。 分 三 步 。 
第 一 ， 实 现 提 取 学 号 后 三 位 。 

第 二 ， 为 了 实现 按 学 号 后 三 位 排序 ， 就 得 实现 学 号 后 三 位 与 相应 的 总 分 构成 一 对 ， 再 
排序 ， 和 否则 学 号 后 三 位 排序 了 ， 但 对 应 不 上 相应 的 总 分 。 

第 三 ， 按 照 学 号 后 三 位 与 总 分 的 序 对 顺序 拆 分 成 listl 和 list2 两 列 ， 再 把 listl 做 成 横 
轴 ，list2 做 成 纵 轴 。 


季 4 六 ”Python 数 襄 分析 实 以 人 


【 例 4-31】 绘制 折线 


import matplotlib 


from pandas import read excel 


from matplotlib import pyplot as plt 


df = read excel('e:\\rz4.xlsx',sep="',') 


df 
GE 
学 号 班级 ”姓名 性 别 英语 体育 军训 数 分 高 代 解 几 计算 机 基础 总 分 

0 2308024241 23080242 成 龙 男 76 78 77 40 23 60 89 443 
1 2308024244 23080242 周 怡 女 66 91 75 47 47 44 52 
2 2308024251 23080242 “张波 ， 男 85 81 75 45 45 60 80 471 
2308024249 23080242 村 洛 ' 思 65 S50 80 “T2620 证 82 482 
4 2308024219 23080242 封印 女 73 88 92 61 47 46 83 490 
5 2308024201 23080242 迟 培 男 60 50 89 71 76 71 82 499 
6 2308024347 23080243 李 华 女 67 61 84 61 65 78 83 499 
7 2308024307 23080243 陈 田 男 76 79 86 69 40 69 82 501 
8 2308024326 23080243 余 蜘 男 66 67 85 65 61 71 95 510 
9 2308024320 23080243 李 嘉 女 62 60 90 60 67 77 9 oT 
10 2308024342 23080243 李 上 初 男 76 90 84 60 66 60 32 ,58 
11 2308024310 23080243 郭 窦 女 79 67 84 64 64 79 85 522 
12 2308024435 23080244 姜 才 涛 男 77 71 87 61 73 76 62 527 
13 2308024432 23080244 赵 宇 男 74 74 88 68 70 71 85 530 
14 2308024446 23080244 周 路 女 76 80 77 61 74 80 685 533 
15 2308024421 23080244 林 建 祥 男 72 72 81 63 90 75 85538 
16 2308024433 23080244 李 大 强 男 79 76 77 78 70 70 89 539 
17 2308024428 23080244 李 侧 通 男 64 96 91 69 60 77 83 540 
DE024400 27000240 NT /15 10 3 0 75 88 544 
19 2308024422 23080244 李 晓 亮 男 85 60 85 72 72 83 89 546 


# 提 取 学 号 后 三 位 并 打印 出 来 
def right3(df,a): 


[EE 


实现 提取 学 号 后 三 位 


1 


list0=[] 
list1l=]iet(dre[all} 
or 3 in Li Sst: 
i=str (i) 
list2=i[-3:] 
list0.append (list2) 
return list0 
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4.5.4 柱 形 图 


listl=[df di[i][0] for i in range(len(df di))] 
list2=[df dil[i] [1] for i in range(len(df di))] 


# 为 了 便于 图 中 显示 中 文 
font = {'family':'SimHei'} 
matplotlib.rc('font',**font) 


# 用 '-' 画 顺 滑 的 曲线 ，1ist1 作为 横 轴 ，1ist2 作为 纵 轴 
人 

plt.title(' 学 号 与 总 分 折线 图 ') # 图 的 标题 
Plt.show() 


Out[5]: [<matplotlib.lines.Line2D at 0x2c7e463e780>] 


结果 如 图 4-14 所 示 。 


200 250 300 350 0 450 


图 4-14 折线 图 


柱 形 图 用 于 显示 一 段 时 间 内 的 数据 变化 或 显示 各 项 之 间 的 比较 情况 ， 是 一 种 单位 长 度 


的 长 方形 ， 根 据 数据 大 小 绘制 的 统计 图 ， 用 来 比较 两 个 或 以 上 的 数据 (时 间或 类 别 )。 
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涉及 的 主要 方法 如 下 : 


bar (left,height,width,color) 
barh (bottom,width,height,color) 


left x 轴 的 位 置 序列 ， 一 般 采 用 arange 函数 产生 一 个 序列 。 
height 一 一 y 轴 的 数值 序列 ， 也 就 是 柱 形 图 高 度 ， 一 般 就 是 我 们 需要 展示 的 数据 。 
width 一 一 柱 形 图 的 宽度 ， 一 般 设 置 为 1 即 可 。 
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color 一 一 柱 形 图 的 填充 颜 人 
【 例 4-32】 绘制 柱 形 


import numpy 


从 


import matplotlib 
from pandas import read excel 
from matplotlib import pyplot as pit 
df = read excel('e:\\rz4.xlsx',sep="',') 
gb=df.groupby (by=[' 学 号 ']) [' 总 分 '] .agg ({' 总 分 ' :numpy .sum}) 
gb 
Out [1]: 
总 分 
学 号 
2308024201 499 
2308024219 490 
2308024241 443 
2308024244 452 
2308024249 482 
2308024251 471 
2308024307 501 
2308024310 522 
2308024320 511 
2308024326 510 
2308024342 518 
2308024347 499 
2308024402 544 
2308024421 538 
2308024422 546 
2308024428 540 
2308024432 530 
2308024433 539 
2308024435 527 
2308024446 533 
index=numpy.arange (gb[' 总 分 '] .size) 
index 
Gul2]: 
RIFAY CL QF Tr 2 Me A Dy Gy Vy By 9 07 Tle 2 T3937 LAy T5352 
16ri7r LT8r E93 


# 为 了 便于 图 中 显示 中 文 
font = {'family':'SimHei'} 
matplotlib.rc('font',**font) 


# 竖 向 柱 形 
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plt.title(' 竖 向 柱状 图 学 号 -总 分 ') 

Plt.bar (index,gb[' 总 分 '] ,1,color='G') 
plt.xticks (index + 1/2,gb.index,rotation=90) 
# 为 了 防止 图 中 的 横 坐 标 数据 重合 ， 选 择 rotation=90 

plt.show() 


结果 如 图 4-15 所 示 。 


竖 问 柱状 图 : 学 分 


徘 
中 
a 


-15 ” 竖 向 柱 形 图 


相应 的 横向 柱 形 图 代码 如 下 : 


# 横 向 柱 形 
plt .title(' 横 向 柱状 图 : 学 号 -总 分 ') 
Plt.barh (index, gb[' 总 分 '] ,1,color='G') 
plt.yticks(index + 1/2,gb.index) 
plt.show() 


| 


结果 如 图 4-16 所 示 。 


2308024201 


200 300 


图 4-16 横向 柱 形 


网 
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4.5.5 直方 图 


直方 图 (Histogram) 是 用 一 系列 等 宽 不 等 高 的 长 方形 来 绘制 的 ， 宽 度 表示 数据 范围 的 间 
隔 ， 高 度 表 示 在 给 定 间隔 内 数据 出 现 的 频数 ， 变 化 的 高 度 形态 表示 数据 的 分 布 情况 。 
涉及 的 方法 如 下 : 


hist (x,color,bins, cumulative=False) 


需要 进行 绘制 的 向 量 。 

color 一 一 直方 图 填充 的 颜色 。 

bins 一 一 设置 直方 图 的 分 组 个 数 。 
cumulative 一 一 设置 是 否 累积 计数 ， 默 认 是 False。 
【 例 4-33】 绘 制 直方 图 : 


import matplotlib 


X 


from pandas import read excel 


from matplotlib import pyplot as plt 


font = ffamily Siniei.y 
mAthiotlib otront rr .fonty 


plt.hist (df[' 总 分 '] ,bins=20, cumulative=True) 
Plt.title(' 总 分 直方 图 ') 
Plt.show() 


结果 如 图 4-17 所 示 。 


总 分 直方 图 
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10 
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4-17 直方 图 
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本 章 小 结 


Pandas 库 进行 数据 准备 、 数 据 处 理 、 数 据 分 析 和 数据 可 视 化 等 内 


如 何 快速 地 整理 数 
练 习 
班主 任 现 有 一 班级 的 两 张 表 ， 如 下 。 
表 一 : 成 绩 表 
3 Python 
16010203 
16010210 
16010205 
16010213 
16010215 
16010208 
16010209 
16010204 
16010211 
16010212 
16010206 
16010214 
16010207 
姓名 学 号 手机 号 码 
16010203 16699995521 
16010204 16699995522 
16010205 16699995523 
16010206 16699995524 
16010207 16699995525 
16010208 16699995526 
16010209 16699995527 
16010210 16699995528 


.18 人， 


第 4 章 Python 数据 分 析 实 成 a 


续 表 
姓名 学 号 手机 号 码 
李 矛 16010211 16699995529 
张 白 16010212 16699995510 
白 九 16010213 16699995511 
茧 二 16010214 16699995512 
余 一 16010215 16699995513 
请 帮助 班主 任 做 如 下 工作 。 


(1) 给 成 绩 表 加 上 姓名 列 。 

(2) 给 成 绩 表 加 上 “总 分 ” 列 ， 并 求 出 总 分 。 

(3) 增加 列 字 段 “ 等 级 ”， 标 注 每 人 的 “ 优 、 良 、 中 、 及 格 、 差 ”( 宇 90 优 ， 三 80 
良 ， 三 70 中 ， 宇 60 及 格 ，< 60 差 )。 

(4) 计算 各 门 课程 的 平均 成 绩 以 及 标准 差 。 

(5) 做 一 总 分 成 绩 分 布 图 ， 纵 坐标 表示 成 绩 ， 横 坐标 表 


示 学 号 ， 画 出 总 分 的 均 分 模 
线 ， 让 每 位 同学 的 总 分 国 点 分 布 在 均 分 线 上 下 ， 以 观察 每 位 同学 的 


成 绩 离 开 均 分 的 距离 。 


mm 四 Python 数据 分 析 基础 


5.1 文件 读 写 操作 


Python 提供 了 必要 的 函数 和 方法 进行 默认 情况 下 的 文件 基本 操作 。 
如 读 写 文件 : 


f = open('D:\\aa.txt') # 打 开 aa .txt 文件 
content = f.read() # 读 取 aa .txt 文件 的 内 容 
E = open('D:\\aa.txt','a+')  #'a+' 指 打开 aa.txt 并 在 文件 尾 可 续 写 
f.write('www.i-nuc.com;\n\t 爱 中 北 '+'\n') 

# 写 入 内 容 ， 写 完 换行 或 者 加 一 行 语句 。f .write (' \n') 也 能 实现 写 完 之 后 换行 
f.close() # 及 时 关闭 文件 


打开 一 个 文件 的 不 同 模式 如 表 5-1 所 示 。 
表 5-1 打开 文件 的 各 种 模式 


模式 描 述 

r T 开 一 个 文件 为 只 读 模式 ， 文 件 指针 位 于 该 文件 的 开头 。 这 是 默认 模式 

rb T 开 一 个 文件 ， 只 能 以 二 进 制 格式 读 取 ， 文 件 指针 置 于 该 文件 的 开头 

+ 丁 开 用 于 读 取 和 写 入 的 文件 ， 文 件 指针 将 会 在 文件 的 开头 

Tb+ T 开 用 于 读 取 和 写 入 二 进 制 格式 的 文件 ， 文 件 指针 将 会 在 文件 的 开头 

w 村 开 一 个 文件 ， 只 写 ， 如 果 该 文件 存在 ， 则 覆盖 该 文件 ， 如 果 该 文件 不 存在 ， 则 创建 一 个 
新 文件 用 于 写 入 

wb T 开 一 个 文件 ， 只 能 以 二 进 制 格式 写 入 ， 如 果 该 文件 存在 ， 则 覆盖 该 文件 ， 如 果 该 文件 不 
存在 ， 则 创建 一 个 新 文件 用 于 写 入 

wt 开 用 于 写 入 和 读 取 的 文件 ， 如 果 文 件 存在 ， 则 覆盖 现 有 的 文件 ， 如 果 该 文件 不 存在 ， 则 
创建 一 个 新 文件 用 于 写 入 

wb+ 打开 用 于 写 入 和 读 取 的 二 进 制 格式 的 文件 ， 如 果 文 件 存在 ， 则 覆盖 现 有 的 文件 ， 如 果 该 文 
件 不 存在 ， 则 创建 一 个 新 文件 ， 用 于 写 入 

a T 开 追加 文件 ， 文 件 指针 是 在 文件 的 结尾 ， 也 就 是 说 ， 该 文件 处 于 附加 模式 。 如 果 该 文件 
不 存在 ， 则 创建 一 个 新 文件 ， 用 于 写 入 

ab T 开 追加 的 二 进 制 格式 的 文件 ， 文 件 指针 在 该 文件 的 结尾 ， 也 就 是 说 ， 该 文件 为 追加 模 
式 ; 如 果 该 文件 不 存在 ， 则 创建 并 写 入 一 个 新 的 文件 

at 打开 为 追加 和 读 取 的 文件 ， 文 件 指针 在 该 文件 的 结尾 ， 该 文件 将 为 追加 模式 ;如 果 该 文件 
不 存在 ， 则 创建 一 个 新 文件 ， 并 读 取 和 写 入 该 新 文件 

ab+ 打开 一 个 追加 和 读 取 的 二 进 制 格式 的 文件 ， 文 件 指针 在 该 文件 的 结尾 ， 该 文件 将 为 追加 模 
式 ; 如 果 该 文件 不 存在 ， 则 创建 一 个 新 文件 ， 并 读 取 和 写 入 该 新 文件 

b 以 三 进 制 的 形式 打开 文件 


5 六 其 他 人 


5.1.1 文件 的 读 写 方法 


文件 对 象 提 供 了 三 个 “ 读 ” 方 法 : .read0、.:readline0 和 .readlines0 。 每 种 方法 可 以 接 
受 一 个 变量 ， 以 限制 每 次 读 取 的 数据 量 ， 但 它们 通常 不 使 用 变量 。.read0 每 次 读 取 整 个 文 
件 ， 它 通常 用 于 将 文件 内 容 放 到 一 个 字符 串 变量 中 。 然 而 .read0 生 成 文件 内 容 最 直接 的 字 
守 串 表示 ， 如 果 文件 大 于 可 用 内 存 ， 则 不 可 能 实现 这 种 处 理 。.readlineO 〇 和 .readlines0 之 间 
差异 是 后 者 一 次 读 取 整个 文件 。 像 read0 一 样 ，.readlinesO 自 动 将 文件 内 容 分 析 成 一 个 
的 列表 ， 该 列表 可 以 由 Python 的 for ... in ... 结构 进行 处 理 。 另 一 方面 ，.readline0 每 次 
读 取 一 行 ， 通 常 比 .readlines0 慢 得 多 ， 仅 当 没 有 足够 内 存 可 以 一 次 读 取 整 个 文件 时 ， 才 
.readline()。 
@ Fread([size]): size 为 读 取 的 长 度 ， 以 byte 为 单位 ， 将 文件 读 入 下 作为 一 个 整体 
字符 串 。 
@ Freadline([sizeD): 读 一 行 ， 每 操作 一 次 读 取 一 行 ， 如 果 定义 了 size， 有 可 能 返 
的 只 是 行 的 一 部 分 ， 同 F.next0 方 法 。 
@ Freadlines([size]): 把 文件 每 一 行 作为 一 个 list 的 一 个 成 员 ， 并 返回 这 个 list。 翰 
实 它 的 内 部 是 通过 循环 调用 readline0 来 实现 的 。 如 果 提 供 size 参数 ，size 是 表示 
读 取 内 容 的 总 长 ， 也 就 是 说 ， 可 能 只 读 到 文件 的 一 部 分 。 
®@ FF.write(str): 把 str 写 到 文件 中 ， 但 write0 并 不 会 在 str 后 加 上 一 个 换行 符 。 
@ 了 F.writelines(seqg): 把 seq 的 内 容 全 部 写 到 文件 中 。 这 个 函数 也 只 是 机 械 地 写 入 ， 
不 会 在 每 行 后 面 加 上 任何 东西 。 
当 读 取 很 大 的 文件 时 ， 常 用 fileinput 模块 : 


import fileinput 


沪 总 训导 家 


加 


for line :in fileinput.input('D:\\aa.txt'): 


print (line) 


还 可 以 直接 使 用 for， 也 是 常用 的 模式 之 


E = open('D:\\aa.txt') 


For Line Tn Er 


print (line) 


方法 很 多 ， 还 可 以 列表 解析 一 一 使 用 行 函数 (列表 函数 ): 


[line for line in open('D:\\aa.txt')] 


使 用 open 打开 文件 后 ， 一 定 要 记得 调用 close0 方 法 关闭 文件 。 比 如 可 以 用 try-finally 
语句 来 确保 最 后 能 关闭 文件 : 


.8e\. 


"nO Python 数据 分 析 基 础 


tile object = open( "thefile.txt") 
tr 

all the text = file object.read() 
finally: 

fale object. close() 


3 注意 : ”不 能 把 open 语句 放 在 try 块 里 ， 因 为 当 打 开 文件 出 现 异常 时 ， 文 件 对 象 


file_object 无 法 执行 close() 方 法 。 


5.1.2 文件 的 其 他 方法 


文件 的 其 他 方法 说 明 如 下 。 

@ FF.close0: 关闭 文件 。Python 会 在 一 个 文件 不 用 后 自动 关闭 文件 ， 不 过 这 一 功能 

没有 保证 ， 最 好 还 是 养 成 “手动 ”关闭 的 习惯 。 如 果 一 个 文件 在 关闭 后 还 对 其 进 

行 操作 ， 会 产生 ValueError。 

F.flush0: 把 缓冲 区 的 内 容 写 入 硬盘 。 

F.fileno0: 返回 一 个 长 整 型 的 “文件 标签 ”。 

F.isatty0: 文件 是 否 是 一 个 终端 设备 文件 (Unix 系统 中 的 )。 

F.tell0: 返回 文件 操作 标记 的 当前 位 置 ， 以 文件 的 开头 为 原点 。 

F.next0: 返回 下 一 行 ， 并 将 文件 操作 标记 位 移 到 下 一 行 。 当 我 们 把 一 个 fne 用 于 

for .… in file 这 样 的 语句 时 ， 就 是 调用 next() 函 数 来 实现 遍历 的 。 

© FF.seek(offset[,whence]): 将 文件 操作 标记 (指针 ) 移 到 offset 的 位 置 ，offset 一 般 是 
相对 于 文件 开头 来 计算 的 ， 一 般 为 正 数 。 但 如 果 提 供 了 whence 参数 ， 就 不 一 定 
了 ，whence 可 以 为 0， 表 示 从 头 开 始 计算 ， 为 1 表示 以 当前 位 置 为 原点 计算 ， 为 
2 表示 以 文件 末尾 为 原点 计算 。 需 要 注意 ， 如 果 文 件 以 a 或 a+ 的 模式 打开 ， 每 次 

进行 写 操作 时 ， 文 件 操作 标记 会 自动 返回 到 文件 末尾 。 可 以 使 用 F.tell0 查 询 指针 
当前 的 位 置 。 

@ FE.tmncate([size]): 把 文件 裁 成 规定 的 大 小 ， 默 认 的 是 裁 到 当前 文件 操作 标记 的 位 
置 。 如 果 size 比 文 件 的 大 小 还 要 大 ， 依 据 系统 的 不 同 ， 可 能 是 不 改变 文件 ， 也 可 
能 是 用 0 把 文件 补 到 相应 的 大 小 ， 也 可 能 是 以 一 些 随机 的 内 容 加 上 去 。 


5.1.3 文件 的 存储 和 读 取 


(ied. 


1. pickle 
先 看 个 例子 : 


入 a 


import pickle 

asl1lr2,3r4r5] 

f=open ('test01.dat', 'wb') # 将 以 wb 格式 打开 (没有 则 新 建 ) 文件 
pickle.dump (a, f) # 将 文件 a 存 入 f 中 

f.close() 


这 个 过 程 叫 文件 序列 化 ， 面 对 较 大 对 象 时 ， 建 议 dump0 使 用 参数 True， 能 够 节省 不 少 
空间 ， 即 上 例 中 可 以 改 为 pickle.dump(a,f,True)。 
文件 存 进 去 了 ， 还 需要 能 读 取出 来 ， 继 续 看 例子 : 


f=open('test01.dat','rb')  # 将 以 rb 格式 打开 或 新 建 一 个 文件 
d=pickle.load(f) # 从 f£ 中 读 取 
f.close() 


pickle 可 以 完成 一 些 简单 的 存 取 工 作 ， 但 对 更 复杂 的 工作 ， 还 是 有 点 “力不从心 ”。 
F 是 就 有 了 shelve，shelve 的 操作 有 点 像 字典 ， 更 接近 于 数据 库 。 例 如 : 


import shelve 
s=shelve .open('test02.db') # 打 开 或 新 建 一 个 文件 
s['name']="'yubg"' # 给 文件 键 赋值 
sf"sex']= man’ 

s['age']=40 


sl"'demeo"l=["He 1s a teacherc."] 


s.close() 


s=shelve.open('test02.db') 
print (s['name']) # 读 取 s 的 全 部 内 容 时 可 以 使 用 for 来 遍历 


fOr 3 Ln 


Printt(tdt nTatt)) 


demowm [He La a Loachers 7] 
name: yubg 
sex: man 


age: 40 


但 需要 注意 ， 如 果 要 给 demo 添加 一 些 内 容 ， 可 以 这 样 做 : 


import shelve 


s = shelve.open('test02.db') 


(en. 
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s['demo'] .append('and he teaches math.') 
print(s['demo']) 


['He is a teacher.'] 


从 内 容 上 来 看 ， 好 像 没有 添加 进来 啊 ? 猜 对 了 ! 要 想 添 加 成 功 ， 务 必 在 打开 文件 的 时 


候 多 添加 个 参数 :writeback=True。 例 如 : 


import shelve 

s = shelve.open('test02.db',writeback=True) 
s['demo'] .append('and he teaches math.') 
print(s['demo']) 


s.close() 


['He is a teacher.', 'and he teaches math.'] 


出 | 说 明 : 在 增加 和 删除 以 及 查询 时 ， 都 要 看 其 类 型 ， 如 demo 是 string， 则 append 是 


添加 不 成 功 的 ， 因 为 str 类 型 就 不 允许 添加 。 本 例 中 是 list， 所 以 添加 成 功 。 
当然 ， 如 果 删 除 name 这 个 key， 可 以 用 del， 但 是 demo 就 不 可 以 了 ， 只 能 


用 -popO。 
s = shelve.open('test02.db') 


del s['name'] 


TOr Ll Er 


人 
sex: man 


demo: ['He is a teacher.'] 
age: 40 


5.2 ”with 语句 


with 语句 适用 于 对 资源 进行 访问 的 场合 ， 确 保 不 管 使 用 过 程 中 是 否 发 入 


EE 异常， 都 会 执 


行 必要 的 “清理 ”操作 ， 释 放 资 源 。 比 如 文件 使 用 后 自动 关闭 、 线 程 锁 的 自动 获取 和 释 


放 等 。 例 如 : 
f = open('D:\\aa.txt') 
try: 
content = f.read() 
finally: 
f.close() 


(19a. 


和 人 ,a 


这 段 代码 太 元 长 了 ，with 有 更 优雅 的 语法 ， 可 以 很 好 地 处 理 上 下 文 环境 产生 的 异常 。 


下 面 是 with 版 本 的 代码 ， 自 动 帮 我 们 关闭 文件 : 
with open("/tmp/foo.txt") as f: 
data = f.read() 


比较 下 面 两 段 程序 代码 。 
代码 一 : 


with open(r'fileName') as f: 


tor oline In Es 
print (line) 
代码 二 : 
f = openl(r'fileName') 
try: 
for: line in 王 : 
print (line) 
finally: 
f.close() 


比较 起 来 ， 代 码 一 优 于 代码 二 ， 使 用 with 语句 还 可 以 减少 编码 量 。 


with open(r'd:/aa.txt') as f: 


Lr LNG £4 


print (line) 


如 : 


以 上 三 行 代码 主要 实现 了 以 下 四 项 工作 。Q@ 打开 D 盘 文 件 aa.txt; @ 将 文件 对 象 赋 
值 给 f; @ 将 文件 所 有 行 输出 ; @ 无 论 代码 中 是 否 出 现 异常 ，Python 都 会 关闭 这 个 文 


件 ， 不 必 关 心 这 些 细节 。 


5.3 Anaconda 下 安装 statsmodels 包 


statismodels 是 一 个 Python 包 ， 提 供 一 些 互 补 scipy 统 
计 计 算 功能 ， 包 括 描述 性 统计 和 统计 模型 估计 和 推断 。 但 Be 


| Windows Defender 


是 ，Anaconda 却 并 不 包含 statismodels 包 ， 需 要 我 们 自 
己 来 安装 。 

若 已 经 安装 了 Anaconda， 则 从 开始 菜单 中 选择 
Windows 系统 中 的 “命令 提示 符 ” 命 令 ， 如 图 5-1 所 示 。 
在 弹出 的 命令 提示 符 窗口 中 ， 输 入 如 下 命令 ， 并 且 按 
Enter 键 : 


图 5-1 菜单 中 命令 提示 符 


(fod. 


wm 


Python 数据 分 析 基 础 


Conda install statsmodels 


等 待 安装 ， 如 图 5-2 所 示 。 


图 5-2 安装 Python 包 文 件 


如 果 发 现 Anaconda 有 升级 的 文件 ， 根 据 提示 输入 y 即 可 升级 ， 如 图 5-3 和 图 5-4 所 示 。 


Conda install statsm 口 x 


on-dateutil 


图 5-3 包 文 件 安装 截图 


(io. 


坟 


图 5-4 包 文 件 升级 截图 
5.4 关于 Spyder 界面 恢复 默认 状态 的 处 理 


在 使 用 Spyder 的 时 候 ， 由 于 鼠标 操作 不 当 ， 很 可 能 会 将 Spyder 默认 界面 (图 5-5) 的 工 
域 打 乱 ， 甚 至 找 不 到 功能 区 。 


全 Spyder (Python 3.5) FE 
El Sh on vo cl el 

口 必 国 邮 PP 熙 本 吉 坟 :Pia 丰 D 加 : 本 四 太 站 ee 
Editor — C: \Vsers\yuba\. spyder2 py3\untitled0" 名 X Object inspector x 
志 mtitetn.p* | ene wm 国 E Se [Er tjeot J 日 加 
ds 昌 

te 
本 EE 
i 人 日 画 _ 忆 


Python 3.5.1 |Anaconda 2.4.1 (32-bit)| (default，Dec 7 2915，14:57:35) [MSC v.1999 六 


32 bit (Intel)] 
Type “copyright”, “credits” or “license” for more information- 


IPython 4.8.1 -- an enhanced Interactive Python. 
2 -> Introduction and overview of IPython's features. 
quickref -> Quick reference 

help -> Python's own help system, 

object? -> Details about ‘object', use "object??" for extra details. 
Xeuiref -> A brief reference about the graphical user interface 

Im [1] 


Python oonsole File explorer Console History 1o8 


Permissions: RM End-oflines: CRLF 。 Encoding: UTF-8 Uine: 了 Colamns 1 Memory 55 % 


图 5-5 Spyder 系统 默认 的 界面 


常见 的 处 理 方法 是 选择 菜单 栏 中 的 View 一 Panes 命令 ， 然 后 在 出 现 的 界面 中 色 选 需 


的 相关 功能 显示 项 。 


.1fes， 
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(fed. 


图 5-6 所 示 是 一 个 被 拖 动 打 乱 的 界 


， 我 们 拟 恢 复原 来 系统 默认 的 界面 


全 Spyder (Python 3.5) 一 “” 口 x 
Fle Edit Search Source Run Debug Consoles Tools View Help 
加 ,加 由 车 司 访 癌 Pi3 如 戌 防 国 国 四 闪 世 和 本 [个 
下 
EE: vores (SE)] tie: 
可 上 
Here you can ger netp orany object by 
pressing Cutel in front ofit cither on the 
a Editor of the Console 
3 
Help can also be shown automatically after ~ 
TREE | obieot inspector 
到 ai EE 
| vy Prrofie 国 Stop 
| Function/Modul Total Time Local Time Calls File:line 
| x 
< ||< = >| IRython console Hle erplorer Console | Wstory 1og 
Permissions: Ry End-oflines: CRLF _ Encoding: UTF-S Une 8 Column: 1 Memory: 54% 
图 5-6 打 乱 了 的 Spyder 界面 
从 菜单 栏 中 选择 View 一 Panes 命令 ， 如 图 5-7 所 示 。 
各 Spyder (Python 3.5) 2 口 x 
Fle Edit Search Source Run Debug Consoles Tools [WE Help 
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另 一 个 方法 是 打开 Windows 的 “六 


图 5-7 Spyder 


始 ” 菜 站 


bh 的 菜单 命令 


让， 找到 Anaconda3 程序 ,和 9 


打开 折 受 菜 


单 ， 选 择 Reset Spyder Settings 命令 ， 如 图 5-8 所 示 。 大 概 等 待 三 五 秒 钟 ， 程 序 将 自动 运行 
并 结束 。 当 再 次 打开 Spyder 时 ， 界 面 已 经 恢复 到 初 装 时 的 默认 状态 。 


图 5-8 让 Spyder 恢复 默认 设置 的 菜单 命令 


5.5 关于 Python 计算 精度 的 问题 


首先 看 如 下 问题 : 


> > > T+t0 it0s 1=0.3 
>>> print (a) 
S25511151231257836=17 
>>> 


结果 怎么 会 是 5.55e-17 呢 ? 为 什么 不 是 0? 

分 析 : 浮 点 数 的 一 个 普遍 问题 ， 是 它们 不 能 精确 地 表示 十 进 制 数 ， 即 使 是 最 简单 的 数 
学 运算 也 会 产生 小 的 误差 。 

解决 方案 有 如 下 几 种 。 

(1) 使 用 格式 化 (不 推荐 ): 


> OE % (1/3 

人 
07333333333333333314829616256247" 
>>> 


可 以 显示 ， 但 是 不 准确 ， 后 面 的 数字 往往 没有 意义 。Python 默认 的 是 17 位 小 数 的 精 
度 ， 当 我 们 的 计算 需要 使 用 更 高 的 精度 (超过 17 位 小 数 ) 时 ， 就 需要 采取 特殊 的 方法 。 
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数 ， 


(2) 使 用 高 精度 decimal 模块 ， 配 合 getcontext: 


>>> from decimal import * 


>>> print (getcontext ()) 

Context (prec=28, rounding=ROUND HALF _EVEN, Emin=-999999, Emax=999999, 
capitals-1, clamp-0, flags=[], traps-[InvalidOoperation, DivisionByZero, 
Overflow]) 

>>> getcontext () .Prec = 50 

>>> b = Decimal (1) /Decimal(3) 

>>> b 

Decimal('0.33333333333333333333333333333333333333333333333333") 

>>> c = Decimal (1)/Decimal(17 

b> 
Decimal('0.058823529411764705882352941176470588235294117647059') 

>>> float (C) 

0.058823529411764705 

>>> 


decimal 的 构建 : 可 以 通过 整数 、 字 符 串 或 者 元 组 构建 decimal.Decimal， 对 于 浮 点 
需要 先 将 其 转换 为 字符 串 
decimal 的 context: decimal 在 一 个 独立 的 context 下 工作 ， 可 以 通过 getcontext 来 获取 


也 


当前 环境 。 例 如 ， 前 面 曾经 提 到 过 ， 可 以 通过 decimal.getcontext().prec 来 设 定 小 数 点 精度 
(默认 为 28): 


>>> from decimal import Decimal as D 

>>> from decimal import getcontext 

>>> getcontext () 

Context (prec=6, rounding=ROUND HALF EVEN, Emin=-999999999, 
Emax=999999999, capitals=1, flags=[Rounded, Inexact], 
traps=[DivisionByZero, InvalidOperation, Overflow]) 


>>> getcontext() .Prec = 6 
>>> D{1})/D(3) 
Decimal("0.333333 ) 

SR 


默认 的 context 的 精度 是 28 位 ， 可 以 设置 为 50 位 甚至 更 高 。 这 样 ， 在 分 析 复 杂 的 浮 


点 数 的 时 候 ， 可 以 有 更 高 的 可 控制 精度 。 例 如 : 


(198. 


>>> from decimal import Decimal 
> a = Decimal (42.) 

>>> b = Decimal('2.1') 
> 


全; 证 共 人 人 


Decimal (6. 3 只 

>>> print(a + b) 

Re 

>>> (a + b) == Decimal('6.3') 
True 

>>> 


还 注意 : decimal 中 的 数 要 把 它 当 成 str 来 处 理 ， 即 参加 运算 的 数 要 添加 单 引号 。*。 


(3) 使 用 decimal 模块 ， 配 合 locacontext: 


>>> from decimal import localcontext 
>>> a = Decimal('1.3') 
wh DoeGtmal dt Ln 
>>> print(a / b) 
0.7647058823529411764705882353 
>>> with localcontext () as ctx: 
ctx.prec = 3 
print(a / b) 


Wh 

>>> with localcontext() as ctx: 
ctx.prec = 50 
Print(a / b) 


0.76470588235294117647058823529411764705882352941176 
>>> 


总 地 来 说 ，decimal 模块 主要 用 在 涉及 到 金融 的 领域 。 在 这 类 程序 中 ， 哪 怕 是 一 点 小 小 
的 误差 ， 在 计算 过 程 中 都 是 不 允许 的 。 因 此 ，decimal 模块 为 解决 这 类 问题 提供 了 方法 。 

当 Python 和 数据 库 打 交道 时 ， 也 通常 会 遇 到 decimal 对 象 ， 并 且 通 常 也 是 在 处 理 金融 
数据 时 。 

在 有 些 浮 点 数 计算 问题 上 ， 可 以 利用 math 模块 来 解决 ， 例 如 : 


>>> nums = [1.23e+18, 1, -1.23e+18] 

>>> sum (nums) # 注意 结果 为 什么 不 是 1? 
0.0 

>>> 


上 面 的 错误 可 以 利用 math.fsumO 〇 所 提供 的 更 精确 计算 能 力 来 解决 : 


>>> import math 


>>> math.fsum(nums) 
LD 


(ed\. 
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>>> 


Math 模块 提供 了 以 下 功能 函数 : 


>>> import math 
>>> dir (math) 


EE doc SR loader A name Ve packade 0 机 
"acosh', 'asin', vasinb ‘atan', atan2', ‘atanh', ‘ceil', Tcopysignry 
Cosy “cogh'y ‘degqrees'yr "ey, "erf’, "erfety “exp "expml', ‘fabs yr 
‘factorial', "floor's ‘fmod', 'frexp', 'fsum', 'gamma'; ‘ged', "hypot', 
Tran VLACTOSe re TIOtiniteon, Loluts, Tonent Udoexe uy TOommar ee Tou 
‘log10', 'loglp', 'log2', ‘modf', 'nan', 'pi', 'pow', 'radians', 'sin', 
eltnb yn Voqrt ry any stanh ee TY 天 六 

Pe 


5.6 和 矩阵 运算 
5.6.1 创建 矩阵 


矩阵 的 创建 可 以 利用 numpy 包 ， 如 创建 矩阵 A 和 B: 


>>> import numpy as np 
>>> A = np.mat ([[1,2,3],[4,5,6]]) 
2 
matrix([[1l, 2, 3], 
[4, 5, 6]]) 


>>> B= [llr2]1:[3,4]] 
>>> B= np.array (B) 
3533 8 
array ([[1, 2], 

[3, 4]]) 
>>> 


在 numpy 里 ，mat 是 matrix 的 一 个 别名 。 


5.6.2 ”和 矩阵 属性 


a.T: 返回 自身 的 转 置 Cnp.array(B) 构 成 的 矩阵 仅 可 用 此 属性 )。 
a.H: 返回 自身 的 共 罗 转 置 。 

a.I: 返回 自身 的 逆 和 矩阵 。 

a.A: 返回 自身 数据 的 二 维 数组 的 一 个 视图 (没有 做 


加 


的 拷贝 )。 


.12o0\， 


5 六 共 人 人 


例如 : 

import numpy as np 

a.transpose () # 返 回 行列 转 置 ， 同 于 a.T 
a.trace() # 计 算 和 矩阵 a 的 迹 
np.trace (a) # 计 算 和 矩阵 a 的 迹 
np.linalg.inv(a) # 和 矩阵 a 的 道 和 矩阵 
np.linalg.matrix rank (a) # 求 矩阵 的 秩 

np.dot (A,B) # 和 矩阵 A、B 的 乘积 
np.linalg.det (a) # 返 回 的 是 矩阵 a 的 行列 式 
cd = np.linalg.eig(a) # 和 矩阵 a 的 特征 值 c 和 特征 向 量 a 
np.linalg.norm(a,ord=None) # 计 算 矩 阵 a 的 范 数 
np.linalg.cond(a,P=None) # 和 矩阵 a 的 条 件数 
a.shape # 可 以 获取 矩阵 的 大 小 


>>> from numpy import * 
>>> a=mat('l 2 3; 4 5 3') 
no PEiNt((aa tT) 1) 


[[0.29239766 -0.13450292] 
[=0233450292 “0.08187E351]] 


# 求 矩阵 的 秩 : 

>>> import numpy 

>>> i=numpy.eye (4) 

> 

aneavtt tL Ome We Os 
LO Tp Ds Dls 
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>>> numpy.linalg.matrix rank (i) 

4 

六 六 


5.6.3 ” 解 线性 方程 组 


求 线性 方程 组 AX=B 的 解 : 


np.linalg.solve (A,B) 


例如 : 


A=np.mat ([[1,2],[3,4]]) 
B=np.mat ([[5,6]]).T 
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s=np.1linalg.solve (A,B) 


matrix([[-4. 


]， 
[4.5]]) 


5.6.4 ”线性 规划 最 优 解 


看 一 个 例子 : 小 明 找到 了 一 份 实习 工作 ， 了 
还 没 毕 业 ， 学 校 时 


不 时 还 有 事 ， 所 以 不 能 离 学 校 太 远 ; 而 且 有 时 还 要 去 女 朋 友 那 号 


是 想 租 一 个 房子 ， 最 好 离 公司 近 点 ， 但 是 
旦 ， 她 希 


望 小 明 就 住 在 她 附近 ， 于 是 小 明 该 如 何 选择 房子 的 地 址 ? 

具体 我 们 假定 公司 、 学 校 、 女 友 在 地 图 上 的 坐标 分 别 是 (1,D)、(4,6)、(9,2)， 求 小 明 的 
租房 坐标 。 

这 里 需要 使 用 scipy 提供 的 scipy.optimize.mininize 方法 ， 首 先 需要 设计 一 个 计算 距离 
的 方程 : 


import numpy as np 


from scipy.optimize import minimize 


# 租 房 到 公司 、 学 校 、 女 友 的 距离 


def £f(coord,x,y): 


return np.sum( (coord[0]-x)**2+ (co 


# 把 公司 、 学 校 、 女 友 三 地 的 4 
x= np.array([1,4,9]) # 公 司 
y= np.array([1,6,2]) # 公 司 


# 找 一 个 起 始点 ， 


initial = np.array ([50,5]) 


Ff 看 看 租房 到 三 地 的 距离 平方 和 


print (f (initial,x,y)) 


方 和 最 小 方程 ， 


上 标 保存 在 两 个 向 量 里 
、 学 校 、 女 友 的 横 坐 标 
、 学 校 、 女 友 的 纵 坐标 


房子 的 坐标 : [coord[0] ,coord[1]] 
ord[1]-y)**2) 


昌 


# 随 便 选 一 个 租房 地 址 作为 起 点 


# 求 最 优 解 并 打印 

res = minimize(f,initial,args=(xvy)) # 最 优化 
Print (res.x) # 打 印 最 优 的 房子 坐标 

print {f(res. XRry)) 

6224 

[ 4.66666667 3.00000001] 

46.6666666667 

绘制 出 地 图 ， 标 注 上 租房 的 点 house( 如 图 5-9 所 示 ): 


import matplotlib.pyplot as plt 
labels 


-120 人， 


['company','school', 'girl'] 


他 5 六 共 他 人 


Plt.scatter (x,y) # 按 照 x、y 画 医 


for i in range (3): 
plt.arrow (res.x[0],res.x[1],-res.x[0]+x[i], 
~res.x[l1]+y[i],head length=-0.1,head width=0.1,fe="'k") 


plt.text (x[i],y[i],1labels[i]) 


plt.text (res.x[0],res.x[1], 'house') 


plt.show() 
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图 5-9 ”租房 地 点 house 与 其 他 三 地 的 位 置 


5.7 正则 表达 式 


字符 串 是 编程 时 涉及 到 的 最 多 的 一 种 数据 结构 ， 对 字符 串 进 行 操作 的 需求 几乎 无 处 不 
在 。 比 如 判断 一 个 字符 串 是 否 为 合法 的 E-mail 地 址 ， 虽 然 可 以 编程 提取 @ 前 后 的 子囊 ， 再 
分 别 判断 是 否 是 单词 和 域名 ， 但 这 样 做 不 但 有 麻烦， 而且 代 码 难以 复 用 。 
正则 表达 式 是 一 种 用 来 匹配 字符 串 的 强 有 力 的 工具 。 它 的 设计 思想 是 用 一 种 描述 性 的 
语言 来 给 字符 串 定义 一 个 规则 ， 凡 是 符合 规则 的 字符 串 ， 我 们 就 认为 它 “ 匹 配 ” 了 ， 否 
则 ， 该 字符 串 就 是 不 合法 的 。 

所 以 ， 判 断 一 个 字符 串 是 否 为 合法 的 E-mail 的 方法 如 下 。 

(1) 创建 一 个 匹配 E-mail 的 正则 表达 式 。 

(2) 用 该 正则 表达 式 去 匹配 用 户 的 输入 ， 判 断 是 否 合法 。 
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为 正则 表达 式 是 用 字符 串 表示 的 ， 所 以 要 首先 了 解 如 何 用 字符 来 描述 字符 。 
1. 准备 知识 
在 正则 表达 式 中 ， 如 果 直 接 给 出 字符 ， 就 是 精确 匹配 。 用 \d 可 以 匹配 一 个 数字 ， 用 \w 
可 以 匹配 一 个 字母 或 数字 ， 用 英文 句点 可 以 匹配 任意 字符 ， 所 以 : 


‘00\d’ 可 以 匹配 .007?， 但 无 法 匹配 ‘00A*， 也 就 是 说 ，‘00’ 后 面 只 能 是 数字 。 
Addd' 一 一 可 以 匹配 010`， 只 可 匹配 三 位 数字 。 

wwd 一 一 可 以 匹配 ‘py3”， 前 两 位 可 以 是 数字 或 者 字母 ， 但 是 第 三 位 只 能 是 数字 
‘py.” 可 以 匹配 ‘pyc*、‘pyo*、‘py!* 等 。 


在 正则 表达 式 中 ， 用 * 表 示 任 意 个 字符 (包括 0 个 )， 用 + 表示 至 少 一 个 字符 ， 用 ?表示 0 
个 或 1 个 字符 ， 用 {n} 表 示 n 个 字符 ， 用 {n,m} 表示 n 到 m 个 字符 。 

下 面 看 一 个 复杂 的 例子 : \d{3}\sh\d{3,8}。 

从 左 到 右 解读 如 下 。 

(1) \d{3} 表 示 匹 配 3 个 数字 。 例 如 ‘010’。 

(2) \s 可 以 匹配 一 个 空格 (也 包括 Tab 等 空白 符 )， 所 以 \s+ 表 示 至 少 有 一 个 空格 。 例 如 
区 本 

(3) \d{3,8} 表 示 3~8 个 数字 。 例 如 1234567?。 

综合 起 来 ， 上 面 的 正则 表达 式 可 以 匹配 以 任意 个 空格 隔 开 的 区 号 为 3 个 数字 、 号 码 为 
3~8 个 数字 的 电话 号 码 。 如 ‘021 8234567’。 

如 果 要 匹配 :010-12345* 这 样 的 号 码 呢 ? 由 于 -是 特殊 字符 ， 在 正则 表达 式 中 ， 要 用 中 
转 义 ， 所 以 正则 式 应 该 是 vd{3}\-\d{3.8} 。 

但 是 ， 仍 然 无 法 匹配 ‘010 - 12345:*， 因 为 这 里 -两 侧 带 有 空格 。 所 以 需要 更 复杂 的 匹 
配方 式 。 

2. 进 阶 

要 做 更 精确 的 匹配 ， 可 以 用 [] 表 示范 围 ， 比 如 : 

[0-9a-zA- 妈 ] 一 一 可 以 匹配 一 个 数字 、 字 母 或 者 下 划 线 。 

[0-9a-zA- 妈 ]+ 一 一 可 以 匹配 至 少 个 数字 、 字 母 或 者 下 划 线 组 成 的 字符 串 ， 比 如 
‘a100*、‘0_Z?、‘Py3000: 等 。 

[a-zA-Z\ J][0-9a-zA-Z\ ]* 可 以 匹配 由 字母 或 下 划 线 开头 ， 后 接任 意 个 由 一 个 数字 、 
字母 或 者 下 划 线 组 成 的 字符 串 ， 也 就 是 Python 合法 的 变量 。 

[a-zA-Z\_][0-9a-zA- 妈 1{0，19} 一 一 更 精确 地 限制 了 变量 的 长 度 是 1~20 个 字符 (前 
个 字符 + 后 面 最 多 19 个 字符 )。 
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AIB 可 以 匹配 A 或 B， 所 以 (Plp)ython 可 


^ 表 示 行 的 开头 ，^Ad 表示 必须 以 数字 开头 。 


$ 表 示 行 


的 结束 ，\d$ 表 示 必 须 以 数字 结束 。 


应 注意 ，py 也 可 以 匹配 "python"， 但 加 上 ^py$ 就 变 成 了 整 行 


第 5 章 其 他 必 


以 匹配 Python 或 者 ?python' 。 


匹配 ， 就 只 能 匹配 ?py 了 。 


具体 的 正则 表达 式 常用 符号 见 表 5-2。 
表 5-2 正则 表达 式 的 常用 符号 
符 号 含义 例 于 匹配 结果 
匹配 前 面 的 字符 、 表 达 式 或 括号 里 的 字符 0 
a*b* aaaaaaa、aaaaabbb 
次 或 多 次 
匹配 前 面 的 字符 、 表 达 式 或 括号 里 的 字符 至 
+ atb+ aabbb、abbbbb、aaaaab 
少 一 次 
? 匹配 前 面 的 一 次 或 0 次 Ab? A、Ab 
匹配 任意 单个 字符 ， 包 括 数字 、 空 格 和 符号 | b.d bad、b3d、b#d 
0 匹配 [0] 内 的 任意 一 个 字符 ， 即 任 选 一 个 [a-z]* zero、hello 
\ 转 义 符 ， 把 后 面 的 特殊 意义 的 符号 按 原 样 输出 | \AIN\ 小 
^ 指 字符 串 开 始 位 置 的 字符 或 子 表达 式 人 apple、aply、asdfg 
经 常用 在 表达 式 的 末尾 ， 表 示 从 字符 串 的 末 
端 匹 配 ， 如 果 不 用 它 ， 则 每 个 正则 表达 式 的 ABDxerok、Gplu、 
实际 表达 形式 都 带 有 .* 作 为 结尾 。 这 个 符号 | [2 人 3 | yubg、YUBEG 
可 以 看 成 ^ 符 号 的 反义词 
匹配 任意 一 个 由 | 分 割 的 部 分 bdilirla)d bid、bird、bad 
不 包含 ， 这 个 组 合 经 常 放 在 字符 或 者 正则 表 陵 了 大 号 
a! 人 和 (CA-ZD.)*S pe sim 
某 整 个 字符 串 中 全 部 排除 某 个 字符 ， 就 要 加 eh 
上 ^ 和 8 符号 
pa 风 i aabaaab、aaabab、 
0 表达 式 编组 ，0 内 的 正则 表达 式 会 优先 运行 ”| (a*b)* 
abaaaabaaaabaaab 
匹配 前 面 的 字符 串 或 者 表达 式 m 到 n 次 ， goooglc、gooooglc、 
{mn} 包含 m 和 n 次 go{2,5)gle gooooogle、goooooogle 
傈 匹配 任意 一 个 不 在 中 括号 内 的 字符 [^A-Z]* sced、scad@、hes#23 
\d 匹配 一 位 数字 ad a3、a4、a9 
\D 匹配 一 位 非 数 字 3D 3A、3a、3- 
\w 匹配 一 个 字母 或 数字 \w 3 Mw 
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3. re 模块 

有 了 准备 知识 ， 就 可 以 在 Python 中 使 用 正则 表达 式 了 。Python 提供 re 模块 ， 包 含 所 
有 正则 表达 式 的 功能 。 
由 于 Python 的 字符 串 本 身 也 用 \ 转 义 ， 所 以 要 特别 注意 : 
s = 'ABC\\-001' #Python 的 字符 串 
对 应 的 正则 表达 式 字符 串 变 成 : 


FADO 


此 强烈 建议 使 用 Python 的 r 前 级 ， 就 不 用 考虑 转 义 的 问题 了 : 


s = r'ABC\-001' #Python 的 字符 串 


对 应 的 正则 表达 式 字 符 串 不 变 : 


# "ABC\-001"' 


先 看 看 如 何 判 断 正 则 表达 式 是 否 匹 配 : 


>>> import re 

>>> ematch(c Adat3vaf378187 0 "O10-12345") 
<_sre.SRE Match object; span=(0, 9), match='010-12345'> 
>>> re.match(r'^\d{3}\-\d{3,8}$', '010 123457) 

关 关 六 


match( 方 法 判断 是 否 匹 配 ， 如 果 匹 配 成 功 ， 返 回 一 个 Match 对 象 ， 否 则 返回 None。 
常见 的 判断 方法 是 : 

test =- "用户 输入 的 字符 串 ' 

if re.rmatch (5 正则 表达 式 '，test) : 


Print('ok') 
else: 

print ('failed') 
# 输 出 : 
failed 
4. 切 分 字符 串 


定 的 字符 更 灵活 ， 请 看 正常 的 切 分 代码 : 


可 


正则 表达 式 切 分 字符 串 比 
> Ui 
i 


3 


执行 上 面 代 码 ， 结 果 显 示 ， 无 法 识别 连续 的 空格 。 下 面 运行 正则 表达 式 试 一 下 : 
.2o6\， 


5 六 共 人 人 


> TO anilitAn Vet yp a Do 

| | 

XS 

无 论 多 少 个 空格 都 可 以 正常 分 割 。 下 面 加 入 “\,” 试 试 : 

> Pongplis (elI\aV dt "arby tw qe) 

Bo 

>>> 

再 加 入 “\” 试 试 : 

人 

| 

> 

如 果 用 户 输入 了 一 组 标签 ， 可 以 用 正则 表达 式 把 不 规范 的 输入 转化 成 正确 的 数组 。 

5. 分 组 

除了 简单 地 判断 是 否 匹 配 之 外 ， 正 则 表达 式 还 有 提取 子 串 的 强大 功能 。 用 0 表示 的 即 
是 要 提取 的 分 组 (Group)。 

例如 ^Qd{3})-Qd{3,8})$ 分 别 定 义 了 两 个 组 ， 可 以 直接 从 匹配 的 字符 串 中 提取 出 区 号 和 
本 地 号 码 : 

> m= Fo MALONLE I\d{ Sr Nal 0T0-12345") 

>>> m 

< 9re. SRE Matoh obpject? span={(07 9), mateh="010-12345"> 

>>> m.group (0) 

'010-12345"' 

>>> m.group (1) 

"010"' 

>>> m.group (2) 

22345> 

>>> 

如 果 正 则 表达 式 中 定义 了 组 ， 就 可 以 在 Match 对 象 上 用 group0 方 法 提取 出 子 串 。 

注意 到 group(0) 是 原始 字符 串 ，group(1)、group(2)、…… 表 示 第 1、2、…… 个 子 帅 。 

提取 子 串 非常 有 用 ， 例 如 : 

L905230. 

>>> m= ecmnatchtr' (ofO=9]i 二 的 =3] [200=3] L090 Ne (O09T1100=29]7]210= 


9]13[0-9]14[0-9] 15[0-9]1[0-9])\: (0[0-9]11[0-9]12[0-9] 13[0-9] 14[0-9]15[0- 


SN 9 ee 二 
>>> m.groups () 
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ALY SA 

i 

这 个 正则 表达 式 可 以 直接 识别 合法 的 时 间 。 但 有 些 时 候 ， 用 正则 表达 式 也 无 法 做 到 完 
全 验证 ， 比 如 识别 日 期 : 

OL ns 2 


对 于 和 2-30，”、“4-31’ 这 样 的 非法 日 期 ， 用 正则 还 是 识别 不 了 ， 或 者 说 写 出 来 非常 困难 ， 
这 时 就 需要 程序 配合 识别 了 。 

6. 贪 禁 匹 配 

最 后 需要 特别 指出 的 是 ， 正 则 匹配 默认 是 贪 禁 匹 配 ， 也 就 是 匹配 尽 可 能 多 的 字符 。 

举例 如 下 ， 匹 配 出 数字 后 面 的 0: 

>>> re.match(r'^(\d+) (0*)$', '102300') .groups() 

("E0230007 7 

>>> 
由 于 \d+ 采 用 贪 禁 匹配 ， 直 接 把 后 面 的 0 全 部 匹配 了 ， 结 果 0* 只 能 匹配 空 字符 串 了 。 

必须 让 \d+ 采 用 非 贪 禁 匹 配 (也 就 是 尽 可 能 少 匹 配 )， 才 能 把 后 面 的 0 匹配 出 来 ， 加 个 ? 
就 可 以 让 \d+ 采 用 非 贪 禁 匹 配 ;: 

Cat GT MNATTI Og “T02300") Poumps th 

(L023 OO 

>>> 


7. 编译 
当 我 们 在 Python 中 使 用 正则 表达 式 时 ，re 模块 内 部 会 做 两 件 事情 。 

(1) 编译 正则 表达 式 ， 如 果 正 则 表达 式 的 字符 串 本 身 不 合法 ， 会 报错 。 
(2) 用 编译 后 的 正则 表达 式 去 匹配 字符 串 。 


如 果 一 个 了 式 要 重复 使 用 几 千 次 ， 出 于 效率 的 考虑 ， 我 们 可 以 预 编 译 该 正则 表 
达 式 ， 接 下 来 奸 时 ， 就 不 需要 编译 这 个 步骤 了 ， 可 以 直接 匹配 : 

>>> import re 

# 编 译 : 

>>> re_telephone = re.compile(r'^(\d{3})-(\d{3,8})$') 

# 使 用 : 


>>> re_telephone.match('010-12345') .groups() 
(roOLO TAIASLY 
>>> re_telephone.match('010-8086') .groups () 
Wolo Adee) 
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pe 


编译 后 生成 Regular Expression 对 象 ， 由 于 该 对 象 自己 包含 了 正则 表达 式 ， 所 以 调用 对 
应 的 方法 时 ， 不 用 给 出 正则 字符 


5.8 使 用 urllib 打开 网 页 


Python 的 webbrowser 模块 支持 对 浏览 器 进行 一 些 操 作 ， 主 要 有 三 种 方法 。 
代码 如 下 : 


import webbrowser 


过 


webbrowser.open (url, new=0, autoraise=True) 
webbrowser.open new (url) 


webbrowser.open new tabl(url) 


首先 了 解 webbrowser.open() 方 法 : 


webbrowser.open (url, new=0, autoraise=True) 


在 系统 的 默认 浏览 器 中 访问 url 地 址 ， 如 果 new=0，url 会 在 同一 个 浏览 器 窗口 中 打 
开 ; 如 果 new=1， 新 的 浏览 器 窗口 会 被 打开 ; new=2 时 新 的 浏览 器 tab 会 被 打开 。 而 
webbrowser.get0) 方 法 可 以 获取 到 系统 浏览 器 的 操作 对 象 。 使 用 webbrowser.register0 可 以 注 
册 浏 览 器 类 型 。 

例如 : 


#= Gadling ULE 8 = 


t 


import webbrowser 
url = 'http://www.i-nuc.com/iNUC/' 
webbrowser.open (url) 


print (webbrowser.get ()) 
这 样 就 可 以 打开 一 个 网 站 页 面 ， 但 使 用 的 是 默认 下 打开 的 ， 如 果 想 用 360 浏览 器 打 
开 ， 方 法 如 下 : 


import webbrowser 


BrowserPath = r'C:\Users\yubg\AppData\Roaming\360se6\Application\360se.exe! 
webbrowser.register('360', None, 
webbrowser.BackgroundBrowser (BrowserPath)) 


webbrowser.get ('360') .open new tab('http://www.i-nuc.com/iNUC/') 


而 使 用 urllib 模块 打开 网 站 ， 整 个 程序 只 需 用 两 行 代码 即 可 : 


import urllib 
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数据 (提交 数据 的 两 种 方式 为 post 与 get。 如 果 不 清 楚 ， 也 不 必 太 在 意 ， 一 般 情况 下 很 少 
到 这 个 参数 )， 参 数 proxies 用 于 设置 代理 (这 里 不 详细 介绍 怎样 使 用 代理 ， 感 兴趣 的 读者 可 
以 去 翻阅 Python 手册 的 urllib 模块 )。 


(如 果 未 指定 该 参数 ，urllib 会 生成 一 个 临时 文件 来 保存 数据 ); 参数 reporthook 是 一 个 回调 
函数 ， 当 连接 上 服务 器 ， 以 及 相应 的 数据 块 传输 完毕 的 时 候 ， 会 触发 该 回调 。 可 以 利用 回 
调 函 数 来 显示 当前 的 下 载 进度 ， 下 面 的 代码 将 会 展示 。 参 数 data 指 post 到 服务 器 的 数据 。 
该 方法 返回 一 个 包含 两 个 元 素 的 元 组 (filename，headers)，filename 表示 保存 到 本 地 的 


.210\， 


Print (urllib.request.urlopen('http://www.i-nuc.com/iNUC/') .read()) 


在 Python 2.x 版 本 中 可 以 直接 使 用 import urllib 来 进行 操作 ， 但 是 3.x 版 本 的 Python 


， 使 用 的 是 import urllib.request 来 进行 操作 。 


urlopen 方法 的 格式 : 


urllib.request.urlopen (url[, datal[l, proxies]]) 


下 


参数 url 表示 远程 数据 的 路 径 ， 一 般 是 网 址 ， 参 数 data 表示 以 post 方式 提交 到 url 


urlopen 返回 一 个 类 文件 对 象 ， 它 提供 了 下 列 方 法 。 

©  *read0、readlineO0 、readlinesO0、fileno0、close0: 这 些 方法 的 使 用 方式 与 文件 对 
象 完全 一 样 。 
*#info0: 返回 一 个 httplib.HTTPMessage 对 象 ， 表 示 远 程 服务 器 返回 的 头 信息 
*getcode(): 返回 HTTP 状态 码 。 如 果 是 HTTP 请 求 ，200 表示 请 求 成 功 完成 ; 
404 表示 网 址 未 找到 。 

@  *geturl0: 返回 请 求 的 url。 

对 上 面 的 代码 进行 扩充 ， 可 以 运行 下 面 的 例子 ， 加 深 对 urllib 的 印象 : 


import urllib 
print (urllib.request.urlopen('http://www.i-nuc.com/iNUC/') .read()) 
inuc = urllib.request.urlopen('http://www.i-nuc.com/iNUC/') 
print('http header:\n', inuc.info()) 
print('http status:', inuc.getcode()) 
Print{(t url Lnuc.geturtl)) 
for line in inuc: # 就 像 在 操作 本 地 文件 

print (line) 


inuc-close() 
urlretrieve 方法 的 格式 : 
urllib.request.urlretrieve(url[, filename[, reporthook[, data]]]) 


urlretrieve 方法 直接 将 远程 数据 下 载 到 本 地 。 参 数 filename 指定 了 保存 到 本 地 的 路 径 


路 


径 ，header 表示 服务 器 的 响应 头 。 


， 本 例 将 “ 爱 中 


北 ” 首 页 的 HTML 抓 取 到 本 地 ， 


下 面 通过 例子 来 演示 这 个 方法 的 使 
保存 在 Di\i-nuc.html 文件 中 ， 同 时 显示 下 载 的 进度 。 程 序 如 下 : 
def cbk(a, b, c): 
回调 函数 
ea: 已 经 下 载 的 数据 块 
epb: 数据 块 的 大 小 
ec: 远程 文件 的 大 小 
ReR = O00 LA 


Lf par > TOO0x 
per 100 
Pei (7 
'http://www.i-nuc.com' 
'd;\\i-nuc.html' 


多 per) 


url 


local 


urllib.request.urlretrieve(url, local, cbk) 


运行 结果 如 


5-10 所 示 。 


In [1]: import urllib 
.-: def cbk(a, b, c): 


回调 函数 

@a: 已 经 下 载 的 数据 块 
@b: 数据 块 的 大 小 

人 @c: 远程 文件 的 大 小 


per = 196.9* a* by/c 
if per > 100: 
per = 199 
print('%.2fX%' % per) 


url = ‘http://www.i-nuc.com" 
local = "d:\\i-nuc.html" 


198.00% 


: urllib.request.urlretrieve(url, local, cbk) 


Out[1]: ('d:\\i-nuc.html', <http.client.HTTPMessage at @xcf29910>) 


In [2]: 


图 


urllib 中 还 提供 了 一 些 辅助 方法 ， 


5-10 ”运行 结果 


于 对 url 进行 编码 、 解 码 。 


ul 中 不 能 出 现 一 些 特殊 的 符号 ， 有 些 符号 有 


待 殊 


的 


途 。 我 们 知道 ， 以 get 方式 提交 


数据 的 时 候 ， 会 在 url 中 添加 key = value 这 样 的 字符 串 ， 所 以 在 value 中 不 允许 有 “=”， 


此 要 对 其 
始 的 数据 。 


进行 编码 ; 与 此 同时 ， 服 务 器 接收 到 这 些 参 数 


的 时 候 ， 要 进行 解码 ， 还 原 成 原 
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5.9 网 页 数据 抓 取 


这 里 给 出 用 Python 抓 取 一 个 网 站 跟 帖 回复 的 例子 。 
知 乎 网 上 有 一 个 标题 为 “已 经 有 女 朋 友 了 ， 但 又 遇 到 更 喜欢 的 对 象 怎么 办 ? ”的 帖 
， 里 面 的 一 些 回 复 实 在 很 搞笑 ， 但 是 一 页 一 页 地 看 又 有 点 麻烦 ， 于 是 想 全 部 “ 怜 ”下 来 

存放 到 一 个 文件 里 ， 这 样 ， 就 可 以 随时 查看 到 全 部 的 回复 内 容 了 。 
本 节 主 要 使 用 Python 实现 简单 的 网 络 息 取 ， 以 获取 帖子 的 全 部 
工具 : Anaconda 3。 

网 址 : https://www.zhihu.com/question/19649693 。 

任务 : 将 图 5-11 中 框 起 来 的 部 分 息 下 来 ， 放 到 一 个 TXT 文件 中 。 

步骤 : 利用 Python 的 BeautifulSoup 模块 ， 将 网 页 内 容 收 纳 到 容器 soup 中 ; 再 在 soup 
中 搜索 所 有 回复 的 标识 标签 ， 然 后 将 搜索 出 的 内 容 遍 历 出 来 ， 最 后 建立 一 个 TXT 文件 ， 
并 将 遍历 结果 写 入 此 文件 中 。 


回 


复 。 


已 经 有 女 朋 友 了 ， 但 又 迎 到 更 高 欢 的 对 象 怎么 办 ? “ez 

我 络 对 不 是 问 励 一 心 一 用 ， 只 是 命运 很 奇妙。 如 申 你 已 经 有 对 参 了 ， 在 某 人 还 没 出 现 前 都 十 分 关 好 | 
但 基 人 出 吏 后 ,发现 好 比 你 现在 的 对 象 洒 充 、 有 有线、 温柔， 而 日 是 经 过 得 处 后 ， 趟 是 那 可 只 有 人 外表 的 
幻 蛋 ,重点 是 这 个 对 和 刚 弛 也 去 欢 你 . 


图 5-11 网 页 截图 


(1) 准备 工作 。 先 分 析 网 页 的 源 代码 ， 找 到 回复 的 标识 符 。 
在 网 页 界面 按 下 F12 键 ， 如 图 5-12 所 示 。 

单 击 界面 上 的 B 处 (DOM 资源 管理 器 )， 再 单 击 C 处 (DOM 元 素 突 出 显示 )， 当 把 鼠标 
放 到 D、E 区 域 时 ， 就 会 发 现 A 区 域 有 突出 高 亮 显示 。 下 面 的 D、E 区 域 的 每 一 个 div 标 
签 都 对 应 着 上 面 A 区 域 相 应 的 小 区 域 。 找 到 区 域 A 中 的 回复 和 下 面 区 域 D、E 相对 应 处 ， 
这 里 提取 D 或 者 E 均 可 ， 不 过 了 比较 “干净 ”， 所 以 就 选取 E。 其 实 可 以 验证 ， 只 要 是 
复 部 分 的 内 容 ， 它 的 标签 都 是 class=“zm-editable-content clearfix”， 所 以 只 要 找到 它 的 


互 


秆 


性 ， 再 把 它们 全 部 找 出 来 即 可 ， 这 是 疏 取 的 关键 一 步 。 
已 经 有 女 朋友 了 ， 但 又 届 到 更 喜欢 的 对 象 怎么 办 ? “= 


14205 人 关 
我 抱 对 不 是 鼓励 一 心 二 用 ,只 是 余 运 很 奇妙 。 如 果 你 已 经 有 对 象 了 ， 在 某 人 还 没 出 现 前 都 十 分 
美好 ,但 时 人 出 现 后 , 发 现 好 比 你 现在 的 对 象 漂亮 、 有 铸 、 温 柔 ， 而 且 是 经 过 相处 后 不 是 那 


种 只 有 外 表 的 幻想 ， 重 点 是 这 个 对 象 刚好 也 喜欢 你 
从 人 人 上 面 看 到 的 ， 不 知道 你 们 遇 到 了 会 怎么 去 做 - 
人 人 链接 : blog renren.com/blog/33。 个 冯 


相关 问题 
什么 是 爱 ? 


20K 


14-07-07 口 355 条 评论 口感 部 


| 5 二 ssss 
摆 回 ” 
回 xa name="answer- J00u303" Class="zg-anchor -hidden"></a> 


-votebar"y-</div> ~ 
dr >< div> 
item-rich-text expandable j: 
stion/19649693/answer/19718455" data-actit 
="39803" data-author -nane: 


11apse-body" data-entry-url-"/aue 


answer/content" data-resourceid 


<br /> 
不 要 再 茵 了 .,- 么 么 咪 (，_**) 
ddiv> 
/div> 
<a rane="3065303-comment” class="zg-anchor-hiaden ac"></a> 
bp <div classs 


em-meta answer-actions clearfix js-contentActions">-</div> v 


a i nn in WE 


图 5-12 ”网 页 源 代码 截图 


(2) 在 Python 中 建立 TXT 文件 保存 息 取 的 内 容 ， 并 将 网 页 源 代码 全 部 收纳 入 soup。 
@ 在 Anaconda 3 中 打开 Spyder， 导 入 相关 的 模块 和 库 : 

#encoding:UTF-8 

import urllib.request # 在 Python 3.x 中 使 用 urllib.request 替代 了 urllib2 

from bs4 import BeautifulSouP #BeautifulSoup 库 最 主要 的 功能 是 从 网 页 抓 取 数 据 
建立 一 个 pachong.txt 文件 ， 并 允许 追加 写 入 : 


f = openl('pachong.txt','at+',encoding='utf-8') 


其 中 的 “a+， 表示 在 文件 末尾 追加 文件 ，encoding=“utf-8” 表示 在 写 入 时 以 _ utf-8 编码 
格式 写 入 ， 这 里 最 好 带 上 ， 否 则 打开 pachong.txt 时 会 是 乱码 的 。 
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加 ”打开 链接 网 页 并 疏 取 网 页 数据 ; 


url="https://www.zhihu.com/question/19649693" # 需 要 打开 的 网 址 
html=urllib.request .urlopen (url) .read() # 读 取 网 页 数据 
soup = BeautifulSoup (htm1，"1Lxml") # 将 网 页 数据 纳入 soup 中 
#print (soup .Prettify() ) # 打 印 格式 ， 此 步 可 通过 打印 以 监控 是 否 正常 。 此 句 可 以 省 略 
all = SOup.find alltclass = 


ALL=str (all) .split ('</div>') 


"zm-editable-content clearfix",1limit=3) 


all 行 代码 : 在 soup 中 查找 标签 中 的 class=“zm-editable-content clearfix”*”， 由 于 class 在 
Python 中 是 保留 名 ， 所 以 class 改写 成 class ， 即 class_ =“zm-editable-content clearfix”; 
limit 表示 限制 输出 的 数量 ，limit=3 表示 只 输出 前 三 个 回复 ， 该 参数 也 可 以 忽略 。 

ALL 行 代 码 : 是 将 all 中 的 所 有 内 容 转 化 为 字符 型 str(al)， 并 将 其 内 容 (回复 ) 分 割 
来 ， 这 里 使 用 了 字符 串 分 割 方法 split， 分 隔 符 为 ‘</div>”。 

@ 将 ALL 中 的 内 容 逐 一 提取 出 来 ， 并 写 入 pachong.txt 文件 中 : 


for each in ALL : 


f.write (each+t'\n') 


第 三 行 中 使 用 了 “nm"， 目 的 是 想 每 写 完 一 个 
回 关闭 pachong.txt 文件 ， 扑 虫 结束 : 


felose() 


回 


加 


复 就 男 起 一 行 ， 即 每 条 


复 另 起 一 行 。 


这 里 必须 关闭 文件 ， 否 则 会 继续 占用 系统 资源 。 所 以 每 打开 一 次 文件 ， 务 必 记 住 
后 关闭 该 文件 ， 养 成 良好 的 编写 代码 习惯 。 

至 此 ， 扑 取 的 工作 基本 结束 ， 找 到 并 打开 pachong.txt 文件 ， 验 证 是 否 已 经 息 取 了 想 要 
的 内 容 。 文 件 的 具体 保存 路 径 可 以 在 Spyder 上 看 到 ， 如 图 5-13 所 示 。 


多 Spyder (python 35) 
Ele Edt Search Source Run Debug canscles Tools Vew dep 


日 几 国 记 PP 相 本 入 为 Pli3 夭 丰 及 国葬 XX | 6 em are 


ll tor Ce Msers Wba Doounens Python Soriptsiuncitl ed. pe 


dl 


BX jt 


a | a | i | 忆 wadcxw 加 辣 因 a oieet 


当前 文件 保存 路 径 


5-13 ”Spyder 保存 路 径 


本 疏 虫 的 完整 代码 如 下 : 


#encoding:UTF-8 


import urllib.request 


from bs4 import BeautifulSoup 


121 个 


E = open('pachong.txt','a+',encoding='utf-8') 


url="https://www.zhihu.com/question/19649693"  # 需 要 打开 的 网 址 
html=urllib.request.urlopen (url) .read() # 读 取 网 页 数据 

soup = BeautifulSoup (htm1，"1xml") # 将 网 页 数据 纳入 soup 中 
#print (soup.prettify()) # 打 印 格式 ， 此 步 可 通过 打印 以 监控 是 否 正 常 


all = soup. find all{(class ="zm-editable~content clearfix",1imit=3) 


ALL=str (all) .split ('</div>') 
for each in ALL : 

fwrite(eacht" An 
folose(} 


运行 结果 如 图 5-14 所 示 。 


到 pachong bt -记事 本 
文件 肯 站 ， 情 RK(O) 二 看 V) 六 0 

[diy cl 了 RE Content clearfix”; 
| 起 起 一 句 : 


守 


div ee zm-editable- | 
er 
为 是 天 家 过- 


误 本 河 木 引 写 潭 木 - 
人 
Dt hl 机 


当然 ， 这 样 还 不 够 美观 ， 还 需 代码。 比如 每 次 获取 的 文本 想 要 知道 具体 的 
时 间 ， 还 想 看 到 这 个 帖子 的 标题 ， 并 将 所 有 回复 按 条 整理 好 ， 如 图 5-15 所 示 。 


en 9] 
【时 间 ，2016-05-14 07;42 :42! 和 


中 eh 0 果 你 已 经 有 训 境 人 
i 人 
a DN 


要 相信 在 野党 ， 执 焉 之 后 者 一 1 
- 么 么 眶 (… 


一 一 一 <br/》 人 不要 表 壬 了 .。 


回复 3] 。 


[3 er » 《br /> Cry 起 和 类 有 许多 见 异 思 迁 还 双 输 
i 人 Si 涯 ea A 


图 5-15 整理 后 的 数据 截图 


修改 后 的 完整 代码 如 下 : 


import urllib.request 
from bs4 import BeautifulSoup 


import time 
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print ("***\n***\n***\n 这 是 一 个 爬虫 ， 正 在 息 取 知 乎 网 上 的 一 个 内 容 ， 请 耐 心 等 候 : 。。。") 
f = open('pachong.txt','a+',encoding='utf-8') 

end time=time.strftime ('%Y-gm-%d SH:%M:%S',time.localtime (time.time ())) 

f.write ("【 时 间 : "+end_time+"】\n【 标 题 】 已 经 有 女 朋 友 了 ， 但 又 遇 到 更 喜欢 的 对 象 怎么 
办 ? \n【 描 述 】 我 绝对 不 是 鼓励 一 心 二 用 ， 只 是 命运 很 奇妙 。 如 果 你 已 经 有 对 象 了 ， 在 某 人 还 没 出 
现 前 都 十 分 美好 ， 但 某 人 出 现 后 ， 发 现 她 比 你 现在 的 对 象 漂亮 、 有 钱 、 温 柔 ， 而 且 是 经 过 相处 后 ， 

不 是 那 种 只 有 外 表 的 幻想 ， 重 点 是 这 个 对 象 刚好 也 喜欢 你 。 从 人 人 上 面 看 到 的 ， 不 知道 你 们 遇 到 了 

么 去 做 。"+'\n') 


url="https://www.zhihu.com/question/19649693" 
html=urllib.request .urlopen (url) .read() 
soup = BeautifulSoup (html, "lxml") 
#print (soup.prettify())  # 打 印 格式 ， 本 行 可 以 忽略 
all = Soup.find-alltclass ="zm-editable-content clearfix",1imit=3) 
ALL=str(all) .split ('</div>') 
i=0 
for each in ALL 
Vt 
£f.write('【 回 复 '+str(i)+'】: '+each+'\n') 
f.close() 


print ("***\n***\n***\n 恭喜 你 ， 已 经 完成 任务 ， 请 你 打开 文件 : Pachong .txt 查阅 ") 
end_time 行 代码 调用 的 是 本 地 当前 时 间 。 执 行程 序 结束 后 ， 屏 幕 上 显示 的 情况 如 图 5-16 


所 示 ， 下 载 内 容 保存 在 pachong.txt 中 。 
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In [1]: import urllib.request 
From bs4 import Beautifulsoup 


Nerve 这 是 一 个 要 由 ， 正 在 阳 取 知 玫 网 上 的 一 个 内 容 ， 请 耐心 等 候 * 。。。") 


aestiony 9649693 
html-urllib-request-urlopen(urI)-read() 
soup = BeautifulSoup(html, “lm 


11 = soup.find all(class - 
tr(al1) .split( “</div> 


editable-content clearfix", imit-3) 


fwrite(' 【回复 "+str()+ 


“+eacht'\n’) 


Fclosel() 
print("***+\n*+**+\n*+*\n 共 喜 你 ， 已 经 完成 任务 ， 请 你 打开 文件 : pachong.txt 查 阅 ") 


一 个 让 虫 ， 正 在 忠 取 知 平 网 上 的 一 个 内 容 ， 请 耐心 等 候 : 。。。 


医 喜 你 ,已 经 完成 任务 ,请 你 打开 文件 : pechong. txt 查阅 


In [2]: 


图 5-16 程序 运行 截图 


5.10 


mn 


方法 是 有 的 ，Python 就 擅长 此 项 工作 。 
1. PDF 文件 


目前 很 多 PDF 解析 库 都 是 用 Python 2.x 版 本 到 


5 六 共 人 人 


读 取 文档 


在 很 多 时 候 ， 我 们 需要 读 取 网 上 PDF 文档 .pdf 屋 
BB)， 这 时 我 们 就 需要 下 载 后 再 打开 查阅 。 是 否 可 以 不 下 载 而 直接 查阅 其 文档 内 的 文本 呢 ? 


有 和 Word 文档 .docx 里 的 文本 (字符 


EE 立 的 ， 还 没有 迁移 到 Python 3.x 版 本 。 


但 是 ， 因 为 PDF 比较 简单 ， 而 且 是 开源 的 文档 格式 ， 所 以 有 一 些 给 力 的 Python 库 可 以 读 


取 PDF 文件 ， 而 且 支持 Python 3.x 版 本 。 

PDFMiner3K 就 是 
活 ， 可 以 通过 命令 行使 
络 文件 的 处 理 也 非常 方便 。 


瑟 


下 面 的 命令 安装 : 


spython setup.py install 


下 面 的 例子 可 以 把 任意 的 PDF 读 成 字符 上 


， 也 可 以 整合 到 代码 中 


在 https://pypi.python.org/pypi/pdfminer3k 网 址 可 以 下 载 这 个 模块 的 源 文件 ， 解 压 并 


个 非常 好 用 的 库 ( 是 PDFMiner 的 Python 3.x 移植 版 )。 它 非常 灵 


bh。 还 可 以 处 理 不 同 的 语言 编码 ， 而 且 对 


和 ， 然 后 


网 


StringIO 转换 成 文件 对 象 : 


from pdfminer.pdfinterp import PDFResourceManager, process pdf 


from pdfminer.converter import TextConverter 


from pdfminer.layout import LAParams 


from io import StringIO 
from urllib.request import urlopen 
def readPDF (pdfrile): 
rsrcmgr = PDFResourceManager () 
retstr = StzingIO() 
laparams = LAParams () 


device = 


process_pdf (rsrcmgr, 
device.close() 
content = retstr.getvalue() 
retstr.close() 


return content 


Padfrile = 


TextConverter (rsrcmgr, retstr, 


device, pdfFile) 


laparams=laparams) 


urlopen (“http://pythonscraping.com/pages/warandpeace/chapterl1 .pdf") 
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疯 


outputstring = readPDF (pdfFile) 

print (outputString) 

pdfFile.close() 

readPDF 函数 的 最 大 好 处 是 ， 如 果 你 的 PDF 文件 在 电脑 里 ， 你 就 可 以 直接 把 urlopen 
的 对 象 pdfFile 蔡 换 成 普通 的 open0O 文 件 对 象 : 


pdfFile = open("d:\11.pdf",'rb') 


输出 结果 可 能 不 是 很 完美 ， 尤 其 是 当 PDF 里 有 图 片 、 各 式 各 样 的 文本 格式 ， 或 者 带 有 


表格 的 数据 图 时 。 但 是 ， 对 大 多 数 的 纯 文 本 文档 的 PDF 而 言 ， 其 输出 结果 还 是 可 以 的 。 


hus 


BB 
BB 
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对 于 网 络 或 者 本 地 PDF 文档 的 读 取 ， 可 以 合 二 为 一 ， 对 上 


# -*- coding: utf-8 -*-— 


国 


的 代码 稍 加 修改 即 可 : 


from pdfminer.pdfinterp import PDFResourceManager, process pdf 
from pdfminer.converter import TextConverter 

from pdfminer.layout import LAParams 

from io import StringIO 


from urllib.request import urlopen 


def readPDF (pdfFile): 
rsrcmgr = PDFResourceManager () 
retstr = StringIO() 
laparams = LAParams () 


device = TextConverter (rsrcmgr, retstr, laparams=laparams) 


process pdf (rsrcmgr, device, pdfFile) 


device Close( 


content = retstr.getvalue() 
retstr.close() 


return content 


Path = input (' 请 输入 你 要 查询 的 具体 的 网 址 或 路 径 。 如 : c:\\11.paf): ') 
FE tho nmatht 
pdfFile = urlopen (Path) +# 网 上 搜索 
SL: 
pdfFile = open (path, 'rb') # 本 地 机 器 搜索 
outputString = readPDF (pdfFile) 
print (outputstring) 
pdfFile.close() 


以 上 是 在 知道 具体 文件 名 及 路 径 时 ， 可 以 打开 PDF 文件 并 获取 其 中 的 文本 或 者 字符 
， 但 这 并 没有 什么 太 大 的 实际 意义 。 如 果 按 给 定 的 关键 词 在 本 地 指定 的 路 径 ( 文 件 夹 ) 下 
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查找 所 有 的 PDF， 并 将 找到 的 文件 给 出 列表 ， 那 将 有 很 强 的 实际 意义 。 
了 这 个 功能 : 


oO0ding utf- 


1 


Python 3 需要 下 载 安装 pdfminer3k 


from 
from pdfminer.converter import TextConverter 
from pdfminer.layout import LAParams 
from io import StringIO 
import os 
def PdfRead (path): 
content="" 
with open (path,'rb') as pdfFile: 
rsrcmgr = PDFResourceManager( 
StringI0() 


LAParams () 


Letste 一 
laparams = 
device = 


TextConverter (rsrcmgr, retstr, 


process pdf (rsrcmgr, device, pdfFile) 
device.close() 
content = retstr.getvalue() 
retstr.close () 
return content 
def find key (path, key): 
for i in os.walk(Path) : 
For 3 Lr 
i1=j.find(' .pdf') 
LE (t= Qandil =Temty) = 
Bp=i1l01 .zeplace("N\s 7) 
tty 
if PdfRead (pp+'/'+j) .find (key) !=-1: 
Print (pp+"'/"'+j) 
except Exception as e: 
with open(curt'/err.l1og', 'a') as err: 
err.writel(str(e)+'\n') 


和 nome m= moi eS 


下 


盏 的 代码 则 实现 


pdfminer.pdfinterp import PDFResourceManager, process pdf 


laparams=laparams) 


find keyl(r'C:\Users\yubg\Documents\Python Scripts','Best seats in the 


house') 


上 述 代 码 在 C:\Users\yubg\Documents\Python Scripts 下 搜索 包含 有 关键 词句 “Best seats 
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in the house” 的 PDF 文件 。 搜 索 结 果 显 示 找 到 了 一 条 记录 C:/Users/yubg/Documents/Python 
Scripts/A.pdf。 如 下 所 示 : 


难 读 取 ， 而 且 能 够 读 取 Word 格式 的 软件 很 少 。 为 了 跟 上 时 代 ， 让 自己 的 软件 能 够 符合 半 
流 软 件 的 标准 ， 微 软 决定 使 用 Open Office 的 类 XML 格式 标准 ， 此 后 新 版 Word 文件 才 与 


runfile('C:/Users/yubg/Desktop/pdf.py', wdir='C:/Users/yubg/Desktop') 
WARNING:pdfminer.layout:Too many boxes (109) to group, skipping. 
C:/Users/yubg/Documents/Python Scripts/A.pdf 


2. Word 的 .docx 文件 
大 约 在 2008 年 以 前 ， 微 软 Office 产品 中 Word 使 用 .doc 文件 格式 。 这 种 二 进 制 格式 很 


出 


他 文字 处 理 软件 兼容 ， 这 个 格式 就 是 .docx。 


现在 有 Word 文档 http://pythonscraping.com/pags/AWordDocument.docx， 我 们 读 取 其 文 


档 内 容 : 


from zipfile import ZipFile 

from urllib.request import urlopen 

from io import BytesIO 

import re 

wordFile = urlopen ("http://pythonscraping.com/pages/AWordDocument .docx") .read() 
#wordFile = urlopen ("file:///C:/Users/yubg/Desktop/2.docx") .read() 
wordFile = BytesIO (wordFile) 

document = 2ipFile (wordFile) 

xml] content = document.read('word/document.xml') 


SsS=re findall ("<wit>( ?</W:t>'yxml content.decode(utf-8')) 
Es et 


Pint(iy 


# 获 取 内 容 如 下 

A Word Document on a Website 

This is a Word document, full of content that you want very much. 
Unfortunately, it’s difficult to access because I"m putting it on my 
website as a . 

docx 


为 了 便于 在 本 地 机 器 上 通过 给 出 关键 词 和 指定 的 路 径 (文件 夹 ) 即 可 搜索 出 该 文件 夹 下 


所 有 包含 要 查找 内 容 的 .docx 文档 ， 并 把 含有 搜索 内 容 的 文件 列 出 ， 这 里 给 出 实现 此 功能 
的 具体 代码 : 
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# -*- coding: utf-8 —*-— 


import os 


from win32com import client as wc 
cur=os.getcwd()+'/temp' 
if not os.path.exists (cur): 


os.mkdir (cur) 


def DocRead (file): 


doc=wc.Dispatch ('Word.Application') .Documents.Open (file) 


doc.SaveAs (cur+'/txt',4) 

doc.Closel 

txt="" 

With omen (Gur /tw tat Me ad ts 
txt=f.read() 

os .Temove (CUE+'/tXtL .txt'") 


EE 


def research (path, key): 


本 代码 的 功能 : 
主要 用 于 某 文件 夹 下 搜索 word 文件 内 的 内 容 。 
如 想 搜索 关键 词 为 “大 数据 分 析 报 告 的 主要 内 容 如 下 : ”这 个 片段 


B= 
for i in os.walk(Path) : 
orld dn hs 
i1=j.find('.doc') 
32=j ind( .dcx") 
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if (il!=-1 and il==len(])=-4) or (i2!=-1 and i2==len(j)-=5): 


Rp=iI0l .replace( NN\ /un) 
print(lppt y+) 
trys 
if DocRead (pp+'/'+j) .find (key) !=-1: 
print (pp+'/'+j) 
nt+=1 
except Exception as e: 
with open(curt'/err.log', 'a') as err: 
和 
En 
print (' 没 有 找到 你 要 的 内 容 !') 
Sle 
print (' 找 到 %d 条 内 容 'sn) 


def main(): 
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path=input (' 输 入 查找 根 路 径 (如 : F:\): ') 
key=input (' 输 入 查询 关键 字 : ' ) 
research (path, key) 


Le Ame "PNAin 


main() 


在 本 地 机 中 ，C:\Users\yubg\OneDrive\other 下 有 某 个 文件 中 含有 “中 北大 学 单位 内 各 
部 门 的 办 公文 档 、 卷 宗 、 图 片 、 视 频 等 数据 ”的 关键 词句 。 执 行 上 面 的 程序 ， 输 入 查找 路 
径 和 关键 词句 ， 查 询 结果 如 图 5-17 所 示 。 


所 国 console 1A 回 国 


Python 3.5.1 |Anaconda 2.4.1 (32-bit)| (default, Dec 7 2015, 14:57:35) [MSC 
v-1966 32 bit (Intel)] 
Type “copyright", "credits” or “license” for more information. 


忆 
和 ~ 


IPython 4.9-1 -- An enhanced Interactive python. 

? -> Introduction and overview of IPython's features. 
%aquickref -> Quick reference. 

help -> Python's own help system. 

object? -> Details about ‘object', use ‘object??' for extra details. 
Keuiref -> A brief reference about the graphical user interface. 

In [1]: 


runfile('C:/Users/yubg/AppData/Local/Programs/Python/Python35-32/untitled24.py', 
wdir="'C:/Users/yubg/AppData/Local/Programs/Python/Python35-32") 


输入 查找 根 路 径 (如 : F:\) : C:\Users\yubg\oneDrive\other 
输入 查 词 关键 字 : 中 北大 学 单位 内 各 部 门 的 办 公文 档 、 卷 宗 、 图 片 、 视 频 等 数据 
C:VUsers/yubg/oneDrive/other/ 中 北大 学 智能 安全 一 体 化 云 存 情 解 决 方案 .docx 
[下 


Tn [2]: 


图 5-17 ”查询 结果 


本 章 主 要 学 习 了 对 文件 的 读 取 和 存储 ， 以 及 如 何 使 用 with 语句 ; 要求 掌 握 计算 精度 的 
处 理 方法 ， 以 及 正则 表达 式 的 使 用 ， 并 对 矩阵 的 基本 运算 有 所 了 解 。 


练 习 


(1) 求 矩 阵 A 的 伴随 矩阵 。AA*=|A|I，A=np.mat([[1,2,3],[4,5,6],[7,8,9]])。 
(2) 判断 RE 字符 串 是 否 全 部 为 小 写 。RE=‘Alphabet3”。 
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> 六 共 也 人 


(3) 写 一 个 以 正则 表达 式 匹 配 IP 地 址 的 代码 。 

(4) 简单 的 网 络 朴 贝 。 要 求 获取 页 面 http://t.cn/RVVe68d 中 的 省 市 名 称 、 作 物 名 称 和 
面积 这 三 个 值 ， 并 打印 出 来 。( 在 项 目 中 ， 需 要 使 用 beautifulsoup4， 所 以 要 首先 安装 
beanutifulsoup4， 并 且 假 取 网 页 的 时 候 使 用 requests 模块 ) 
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